從引進(jìn)到自研再到開源融合,這10年騰訊大數(shù)據(jù)平臺(tái)經(jīng)歷了什么

來源: 百家號(hào)
作者:尚學(xué)堂大數(shù)據(jù)學(xué)院
時(shí)間:2020-10-26
16939
騰訊云副總裁,騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣潔分享了騰訊大數(shù)據(jù)平臺(tái)的發(fā)展歷程,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展方向以及人工智能與云技術(shù)的融合。

在空中3000米處,一架民用飛機(jī)拖著煙翼,在空中畫出兩條黑線。不遠(yuǎn)處,有13名乘客從機(jī)艙中喪生。

此刻,在不遠(yuǎn)的地方,鐵甲的智能助手老賈通過大數(shù)據(jù)算法提出了數(shù)百種解決方案,并一一淘汰。

突然,裝甲開始剎車,一個(gè)人開始在空中飛舞。眨眼間,所有13名乘客都被救出,整個(gè)過程僅30秒。

f9198618367adab45e0c2381f82fc91b8501e412.jpg

在《鋼鐵俠3》中,空難救援場(chǎng)景很經(jīng)典。鋼鐵人通過授權(quán)AI,使用大數(shù)據(jù),云計(jì)算和其他技術(shù),可以在1/30秒內(nèi)做出準(zhǔn)確的決策。

電影中顯示的極端情況引起了我們對(duì)這種技術(shù)的好奇。在現(xiàn)實(shí)生活中,大數(shù)據(jù),云計(jì)算和其他技術(shù)的迭代,集成和著陸會(huì)影響上層應(yīng)用程序的各個(gè)方面(企業(yè)方面)。

從入門到自我研究再到開源集成,過去十年來騰訊的大數(shù)據(jù)平臺(tái)經(jīng)歷了什么

10月6日,雷鋒受邀參加了騰訊舉辦的技術(shù)開發(fā)者大會(huì)。在此期間,騰訊云副總裁,騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣潔分享了騰訊大數(shù)據(jù)平臺(tái)的發(fā)展歷程,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展方向以及人工智能與云技術(shù)的融合。

每日數(shù)據(jù)計(jì)算量超過30萬億

騰訊業(yè)務(wù)部門資源與大數(shù)據(jù)平臺(tái)機(jī)器資源的結(jié)合形成了大數(shù)據(jù)全平臺(tái)計(jì)算能力。

蔣潔透露,到目前為止,計(jì)算能力資源池已達(dá)到20萬多個(gè)單位,每天計(jì)算的實(shí)時(shí)數(shù)據(jù)超過30萬億條。但是,一天之內(nèi)沒有取得這樣的成就。在過去的十年中,騰訊的大數(shù)據(jù)平臺(tái)經(jīng)歷了三個(gè)階段:

1.離線計(jì)算

2009年1月,騰訊建立了首個(gè)Hadoop集群并開始擴(kuò)展數(shù)據(jù)。

這是Apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)結(jié)構(gòu),它實(shí)現(xiàn)了分布式文件系統(tǒng)(HDFS)。

HDFS具有較高的容錯(cuò)能力,適合在低成本硬件上部署;它提供高吞吐量以訪問應(yīng)用程序數(shù)據(jù),適用于具有大數(shù)據(jù)集的應(yīng)用程序。

HDFS為海量數(shù)據(jù)提供存儲(chǔ),而MapReduce為海量數(shù)據(jù)提供計(jì)算能力。

2.實(shí)時(shí)計(jì)算

2012年,隨著移動(dòng)互聯(lián)網(wǎng)的爆發(fā),騰訊的大數(shù)據(jù)平臺(tái)進(jìn)入了第二階段,從Hadoop到風(fēng)靡一時(shí)的暴風(fēng)雨。

該平臺(tái)在吸收開源技術(shù)的基礎(chǔ)上,根據(jù)業(yè)務(wù)需求進(jìn)行了重寫。在此期間,騰訊開始探索流計(jì)算,二級(jí)采集系統(tǒng)的構(gòu)建,并構(gòu)建企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)。

大數(shù)據(jù)平臺(tái)的在線分析和實(shí)時(shí)計(jì)算功能被廣泛應(yīng)用于實(shí)時(shí)報(bào)告,實(shí)時(shí)查詢和實(shí)時(shí)監(jiān)控等場(chǎng)景。

3.機(jī)器計(jì)算

自2015年以來,為了滿足業(yè)務(wù)數(shù)據(jù)挖掘的需求,機(jī)器學(xué)習(xí)平臺(tái)的主體建設(shè)已經(jīng)開始。從數(shù)據(jù)分析到數(shù)據(jù)挖掘的轉(zhuǎn)變是大數(shù)據(jù)平臺(tái)“智能”的體現(xiàn)。

2016年,騰訊自主研發(fā)的機(jī)器學(xué)習(xí)平臺(tái)Angel專注于復(fù)雜的計(jì)算場(chǎng)景,可以進(jìn)行大規(guī)模的數(shù)據(jù)培訓(xùn),支持內(nèi)容推薦,廣告推薦等AI應(yīng)用場(chǎng)景。

姜潔表示,騰訊大數(shù)據(jù)平臺(tái)的開發(fā)是一個(gè)從引入到自學(xué),從離線到實(shí)時(shí),從分析,計(jì)算再到人工智能的全方位演進(jìn)過程。借助正式的開源資源管理平臺(tái)核心tke和分布式數(shù)據(jù)庫tbase,與開發(fā)和計(jì)算平臺(tái)TDW,全棧機(jī)器學(xué)習(xí)平臺(tái)angel和開源實(shí)時(shí)數(shù)據(jù)采集平臺(tái)tubemq一起形成了騰訊大數(shù)據(jù)開源陣營(yíng)。事實(shí)證明,騰訊大數(shù)據(jù)平臺(tái)具有自主研發(fā)能力,已積極推廣開源并回饋行業(yè)。

大數(shù)據(jù)平臺(tái)的新方向:融合在談到發(fā)展方向時(shí),蔣潔強(qiáng)調(diào)了“整合”這個(gè)詞。他認(rèn)為,騰訊大數(shù)據(jù)平臺(tái)正在朝著以下三個(gè)特征進(jìn)行迭代:

1.批量流集成,從批量計(jì)算和實(shí)時(shí)計(jì)算分離到SQL級(jí)別的集成,再到底層計(jì)算引擎級(jí)別和存儲(chǔ)級(jí)別的多方面技術(shù)集成;

2.ABC融合,人工智能,大數(shù)據(jù)和云的集成應(yīng)該綁定在一起。騰訊開發(fā)的機(jī)器學(xué)習(xí)平臺(tái)Angel就是一個(gè)整合案例。Angel已經(jīng)實(shí)現(xiàn)了從預(yù)處理到數(shù)據(jù)培訓(xùn)的集成。當(dāng)整個(gè)系統(tǒng)可以遷移到云中時(shí),將實(shí)現(xiàn)ABC的真正集成;

3。Data Lake實(shí)現(xiàn)了跨IDC,跨平臺(tái)和跨異構(gòu)數(shù)據(jù)源的數(shù)據(jù)共享,并通過聯(lián)合學(xué)習(xí)解決了數(shù)據(jù)共享中的數(shù)據(jù)安全性和隱私性問題。

技術(shù)的發(fā)展并非總是一帆風(fēng)順。蔣潔說,在大數(shù)據(jù)平臺(tái)開發(fā)階段,漏洞還很多。

在資源調(diào)度領(lǐng)域,本地Hadoop的承載規(guī)模很小,這意味著需要自行開發(fā)的調(diào)度程序。通過自行開發(fā)的調(diào)度程序,騰訊在2014年使Hadoop單個(gè)集群的規(guī)模達(dá)到8800,現(xiàn)在已經(jīng)超過40000。在解決了離線規(guī)模問題之后,騰訊的大數(shù)據(jù)團(tuán)隊(duì)再次面臨著在線資源問題。他們需要實(shí)現(xiàn)在線和離線平臺(tái)的混合部署。此過程需要更好的資源隔離,并且容器需要具有與虛擬機(jī)相同的隔離功能。同時(shí),應(yīng)該獲得在線服務(wù)的優(yōu)先級(jí)調(diào)度能力,以提高在線資源比例。

器學(xué)習(xí)平臺(tái)來解決該問題。從一開始,天使就支持10億個(gè)維度,并逐漸增加到1000億個(gè)。目前,天使平臺(tái)的培訓(xùn)規(guī)模已從1000億擴(kuò)大到1萬億。

在過去的十年中,只有騰訊的大數(shù)據(jù)團(tuán)隊(duì)知道漏洞的嚴(yán)重程度。同時(shí),它們自2014年以來一直是開源的,希望為類似的制造商和開發(fā)商提供可行的解決方案。

不要踩到你踩的洞

蔣潔表示,騰訊大數(shù)據(jù)平臺(tái)的基礎(chǔ)技術(shù)來自開源。通過開發(fā),迭代和開源回饋社區(qū)是最好的選擇。

目前,騰訊云已經(jīng)具備了對(duì)外開放的能力,包括存儲(chǔ)網(wǎng)絡(luò),數(shù)據(jù)庫,整個(gè)大數(shù)據(jù)平臺(tái),機(jī)器學(xué)習(xí)平臺(tái)以及為SAAS和語音NLP服務(wù)的上層系統(tǒng)。通過云上的產(chǎn)品,企業(yè)無需專業(yè)的大數(shù)據(jù)和AI人才即可分析大數(shù)據(jù)。

雷鋒了解到,2014年,騰訊的第一代開發(fā)和計(jì)算平臺(tái)TDW是開源的。到2017年,第三代計(jì)算平臺(tái)angel也已經(jīng)開源,并且該平臺(tái)已捐贈(zèng)給Linux基金會(huì)。到今年9月,騰訊開放了實(shí)時(shí)數(shù)據(jù)采集平臺(tái)tubemq的源代碼,并將其捐贈(zèng)給Apache基金會(huì)。

會(huì)議當(dāng)天,姜潔宣布資源管理容器平臺(tái)tke和分布式數(shù)據(jù)庫tbase是開源的。隨著大數(shù)據(jù)領(lǐng)域開源的逐步加速,騰訊正在成為中國(guó)大數(shù)據(jù)領(lǐng)域最全面的開源制造商之一。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號(hào),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購買頁直接購買。
騰訊云
云服務(wù)
2024-12-152024-12-15
高可用這個(gè)問題,加機(jī)器就能解決?
高可用這個(gè)問題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問題與隱性的人員成本問題。
騰訊云
云服務(wù)
2024-11-252024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-042024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來幫忙
復(fù)雜查詢性能弱,只讀分析引擎來幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-022024-11-02
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家