腾讯大数据(四代大数据平台演进)

机器心脏原件作者:蛋酱930革命两年后,备受期待的腾讯云在试卷To B上写了什么?从注册深圳腾讯电脑系统有限公司,到成为中国服务用户最多的互联网企业之一,腾讯经历了互联网发展的…

机器心脏原件

作者:蛋酱

930革命两年后,备受期待的腾讯云在试卷To B上写了什么?

从注册深圳腾讯电脑系统有限公司,到成为中国服务用户最多的互联网企业之一,腾讯经历了互联网发展的黄金二十年。该公司拥有许多国家应用程序和超过10亿的终端用户,在自己的技术披露方面一直保持低调。

当然,事情正在发生变化:两年前,腾讯正式“拥抱”了工业互联网,并进行了第三次机构重组,被称为“930革命”。这个技术巨人积累了多年的技术能力,终于越来越多的从幕后走上舞台。备受期待的腾讯云,成为腾讯通往B路线的王牌。

在不久前举行的2020腾讯全球数字生态大会上,腾讯云副总裁刘玉红透露,腾讯大数据平台在规模、平台规模和经过十年的积累,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达 1500 万,每日实时计算次数超过 40 万亿次,每日接入数据条数超过 35 万亿条,训练数据维度达 1 万亿。.调度量上均处于国内领先水平

根植于To C业务多年,再转向To B,一路走来,腾讯云为什么能踏上历史的进程?

10 年,腾讯云迈了 4 个台阶

很难想象十年前的腾讯“几百节点难管理”。

2019年腾讯Techo开发者大会是公众和行业第一次真正走近腾讯云。在此之前,腾讯刚刚完成第三次机构重组,腾讯云由原来的社交网络业务集团(SNG)转到新成立的云与智能产业业务集团(CSIG)。会上,腾讯云首次介绍了其多年来在基础设施和大数据计算方面的实际成果。

虽然低调,但腾讯已经是中国最大的实时计算公司。一般了解微信、QQ、腾讯游戏的用户数量接近30亿,他们带来的海量数据可想而知。特别是2012年以后,移动互联网进入高速发展阶段,使得腾讯的业务数据在五六年内增长了几千倍。

100亿,1000亿,10万亿.在这种爆炸式增长的趋势下,腾讯云必须快速成长。

在去年的Techo开发者大会上,腾讯云副总裁兼数据平台部总经理蒋捷首次正式介绍了腾讯云大数据的演进。

十年磨砺,四代大数据平台演进,腾讯云为什么能够踩对历史进程?

离线计算阶段(2009 年 - 2011 年):在以Hadoop为核心的离线计算时代,腾讯第一代大数据平台是直接使用社区版,做一些局部优化搭建起来的。腾讯用了三年时间,从关系数据库全面迁移到自建大数据平台。

实时计算阶段(2012 年 - 2014 年):这一阶段的背景是个人电脑互联网向移动互联网的演进,这也对企业计算能力提出了更高的要求。这一阶段,腾讯从hadoop转向以Spark和Storm为核心的流媒体计算,从日、小时、分钟转向秒、毫秒,开始支持在线分析和实时计算场景。这个阶段也是三年。

机器学习 深度学习阶段(2015 年 - 2018 年):这个阶段主要完成从数据分析到数据挖掘的转化,可以概括为“智能”。之后腾讯开发了分布式机器学习引擎Angel和一站式AI开发平台Intelligent,专门针对复杂计算场景,可以进行大规模数据训练,支持内容推荐、广告推荐等AI应用场景。

目前腾讯云正在研究以批量流融合、ABC融合、数据湖、联合学习为方向的下一代大数据平台。该平台将具有混合部署、跨域数据共享和边缘计算的能力。

在过去的十年里,随着业务的发展,腾讯云已经形成了一个「大数据 + AI」的双引擎技术架构:

十年磨砺,四代大数据平台演进,腾讯云为什么能够踩对历史进程?

从这个图可以看出双引擎技术架构的整体布局。底层是分布式存储层,存储结构化和非结构化数据,第二层是资源调度层,管理CPU、GPU和FPGA,第三层是计算层、分析层和数据采集层。顶层是业务应用层。这四层完整的技术架构为腾讯自下而上的整个应用生态提供了支撑。

全链路数据开发平台 WeData

我们可以从图片上了解腾讯云的大数据产品矩阵

磨砺,四代大数据平台演进,腾讯云为什么能够踩对历史进程?" >

第一层是底层基础的存储计算设施,包括 EMR、神盾联邦计算;中间一层是产品开发层,强调「开箱即用」;最上面是应用层,提供了各种比较接近业务的 SaaS 化产品。

这张图的 C 位、全链路数据开发平台「WeData」,是腾讯云前不久才发布的重磅产品。

为什么要做 WeData?腾讯云大数据产品副总经理雷小平将云端大数据比喻为「企业数字化转型中的石油」,但大数据开发平台的构建、维护和升级成本是非常高的,要涉及从数据集成到开发调度多个模块。

十年磨砺,四代大数据平台演进,腾讯云为什么能够踩对历史进程?

WeData 提供了涵盖数据即席分析、数据任务可视化编排、运维等在内的全链路数据开发能力。同时,WeData 在云端构建了统一的元数据管理能力,涵盖技术元数据和业务元数据的管理,并打通了 EMR、CDW 数仓、MySQL 甚至对象存储等在内元数据,以便于企业数据在不同云端数据设施之间进行无缝流转的同时,还能保障其元数据的一致性和可维护性。另外,WeData 还为数据科学家提供了全面的资产管理、数据治理能力,全面提升数据价值发现的效率。

等到 WeData 成熟以后,合作伙伴就可以基于这个开发平台做各种各样的应用,和苹果应用市场是同样的道理。借助于 WeData,企业数据开发门槛可有效降低 60%。

以 QQ 音乐为例,重构之前,所有的数据分析能力都是基于 Spark 构建,所有报表的延时也都是小时级。基于 WeData 进行大数据能力的重构之后,将热数据全部升级到 Clickhouse,并通过 WeData 进行数据开发工作,数据决策能力从小时级别提升到秒级。

最近,在更细分的场景上,腾讯云也对流计算服务 Oceanus、云数据仓库 CDW、ES、弹性 MapReduce、神盾联邦计算以及企业画像等 6 项能力进行了发布和升级。

针对大数据开发场景,腾讯云首次正式对外发布了流计算服务 Oceanus,面向大数据实时计算领域,可应用于实时点击流分析、物联网监控、实时推荐、实时金融风控等场景。而全新发布的云数据仓库 CDW,则可以帮助中小企业快速构建数据仓库,对于常见的运维操作进行高度封装,屏蔽底层复杂的逻辑细节,同时提供多维度全方位智能化的监控体系。此外还全新升级了「明星产品」ES,新增自研中文分词系统,准确度和性能均达到行业领先水平。

在大数据生态的基础设施层,腾讯云全新升级了弹性 MapReduce,将企业大数据构建成本降低 30%;同时实现了异构算力的融合,能够在计算高峰期通过云原生的弹性资源或者在线业务的空闲资源快速补充算力。此外还全新发布了神盾联邦计算,可以零门槛进行企业间的数据融合计算。

私有云方面,腾讯云以 TBDS 为主,在公有云方面,以 EMR 和 WeData 为主,这两大产品体系一起构成了腾讯云大数据产品生态。目前,这些都已经以腾讯云产品和服务的形式,面向开发者和企业开放。

安全、智能、统一:腾讯云大数据的下一个十年

从最初解决计算的问题,到解决时效性的问题,再到提升平台拥有的数据价值,腾讯云大数据平台的发展总体来说是一个从粗放到精细化耕耘的过程。

接下来,腾讯云大数据平台将会在数据安全、智能化、统一平台三大方向重点发力。

腾讯云 AI 平台总监陶阳宇透露,腾讯云目前正在研发联合安全计算平台,将安全加密技与大数据计算、人工智能相结合,能够有效解决跨机构跨公司之间的数据协作问题。在保护数据隐私的同时,提供联合数据分析、联合数据建模等能力,实现数据的互融互通,释放数据价值。

十年磨砺,四代大数据平台演进,腾讯云为什么能够踩对历史进程?

跨机构、跨公司之间的数据协作一直是大数据行业最难解决的问题之一,腾讯联合安全计算平台扩展了现有的大数据和 AI 计算框架,基于联合计算编译和基础安全算子,将数据分析、数据建模的任务,翻译成由安全算子组成的物理执行计划,在多个数据源之间完成安全、协同的联合计算。整个平台提供了联合数据库、安全求交、隐私安全查询、联合分析、联合建模等计算能力,可以广泛应用在政府机构、金融服务、广告平台等多种行业。

智能化方向,作为整个腾讯大数据平台的大脑,腾讯将基于平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现对平台状态的智能分析,达到平台的自动驾驶。

对于下一代大数据平台,腾讯云也将聚焦统一平台的研究,包括大数据和人工智能的统一,以及数据处理和数据挖掘统一,提供一站式数据处理交互体验。

这个过程中,腾讯云也联合了大量合作伙伴:包括硬件层面的英伟达、AMD、Intel 等厂商,合作优化计算性能,提供高性价比的大数据基础设施;以及技术层面的 Apache 基金会、Elastic 和 Cloudera 等商业化公司,推动技术演进。

积淀、迭代,然后开源

回过头去看,腾讯之所以成为腾讯, 与其自身积淀和开源实践都是密不可分的。在技术平台不断迭代的同时,腾讯也在这个过程中成为了大数据领域开源最全面的厂商。

自 2010 年以来,腾讯内部就开始试水开源,比如将好的项目进行跨团队、跨部门、跨业务广泛使用;2014 年,腾讯将其第一代大数据平台的核心——腾讯版 Hive 开源;2017 年,腾讯将其第三代大数据平台的核心——Angel 开源;2018 年 8 月,腾讯将机器学习框架 Angel 捐赠给了 Linux 基金会旗下的 LF AI 基金会;2019 年,腾讯更陆续开源了实时数据采集平台 TubeMQ、资源管理平台核心 TKE、分布式数据库 TBase 及基于 OpenJDK 的自研 Kona JDK 等项目,全栈机器学习平台 Angel 也成为中国首个从 LF AI 基金会毕业的开源项目。

除了开源自研技术,腾讯还结合业务场景帮助开源技术落地,并通过业务沉淀和技术创新来贡献项目、回馈社区。日前 JDK15 正式发布,腾讯作为国内对 OpenJDK 贡献最大的厂商,进入 OpenJDK 全球贡献者榜单前列。

近年来,腾讯不断将内部开源出来的优质项目在 GitHub 上发布,截至目前,腾讯已经在 GitHub 累计获得了超过 32 万个 Star。对于腾讯来说,开源二字已经是自身成长过程中无法分割的一部分。

不久前,由腾讯主导的 Ozone 1.0.0 版本在 Apache Hadoop 社区正式发布。经过 2 年多的社区持续开发和内部 1000 + 节点的实际落地验证,Ozone 1.0.0 已经具备了在大规模生产环境下实际部署的能力。

此外,腾讯也积极拥抱业内一些优秀的新兴开源技术,助力该技术的发展。例如新一代的开源数据湖技术 Apache Iceberg,腾讯数据平台部在 2019 年就正式对其投入研发,进行了可用性等方面的优化和改进,并在实际场景中应用落地。

基于多年的积累,腾讯已经把网络、存储、数据库等 IaaS 能力,大数据、机器学习等 PaaS 的能力,以及上层的图像、语音、NLP、BI 等 SaaS 能力,通过腾讯云对外开放。如今,我们在腾讯身上看到的,更多是一种技术自信。

被寄予厚望的腾讯云,在下一个十年,或许会成为一座新的山峰。

本文为机器之心原创,转载请联系本公众号获得授权。

版权声明:本文为 “66趣闻网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://www.oyh666.com/kexue/785.html

上一篇:天通03号(天通一号03星顺利升空)

下一篇:说明文格式(说明文阅读基本知识及答题技巧)

为您推荐

联系我们

联系我们

vx:15753178057

在线咨询: QQ交谈

邮箱: 498055143@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部