連續(xù)推出2款數據湖新品,AWS張俠剖析亞馬遜的數據核心競爭力

來源: 雷鋒網
作者:王剛
時間:2020-10-14
17589
溝通會上,張俠也對AWS的數據工作進行了深入闡釋,對AWS的數據服務、產品、重要概念及操作手法做了介紹,同時揭示了AWS構建數據湖進行分析的背后邏輯。

5e79ec65851b6.jpg

亞馬遜曾經是Oracle全球數據庫最大的用戶,我們使用了75PB的數據庫,用了7500多個數據庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業(yè)務的很多方面原來都是基于Oracle的數據庫。

我們在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數據庫,去年大概11月份我們全部遷移了Oracle的數據庫,遷移到了我們自己相對應的產品。這個遷移解決了原來擴展困難、費用昂貴,像Oracle支持高額費用等等一系列的問題,減少了數據庫費用成本60%,減少了管理費用70%,增加的性能高達40%。

在近日的一場媒體溝通會上,AWS首席云計算企業(yè)戰(zhàn)略顧問張俠如此感慨。這相似的一幕,雷鋒網編輯曾經兩次在AWS re:Invent現(xiàn)場聽到亞馬遜CTO沃納·威格爾提起過。

然而,當年那場大獲全勝的“去O”僅僅只是開始,實際上AWS多年來對于數據做了相當多的細致工作。

就在3月24日這天,AWS連續(xù)宣布2個新產品正式在由西云數據運營的AWS中國(寧夏)區(qū)域上線:AWS Glue和Amazon Athena。

從具體功能來看:

·AWS Glue在由西云數據運營的AWS中國(寧夏)區(qū)域正式上線。AWS Glue是一種全托管的數據提取、轉換和加載(ETL)服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。由于AWS Glue是無服務器服務,客戶在執(zhí)行ETL任務時,只需要為他們所消耗的計算資源付費。

·Amazon Athena在由西云數據運營的AWS中國(寧夏)區(qū)域正式上線。Amazon Athena是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon Simple Storage Service(Amazon S3)中的數據。由于Athena是一種無服務器服務,因此客戶不需要管理基礎設施,而且只為他們運行的查詢付費。Athena可以自動擴展,并行執(zhí)行查詢,所以即便是大型數據集和復雜的查詢,也能很快獲得查詢結果。

這2個發(fā)布,也意味著AWS在數據湖和數據分析的解決方案上越趨完整。

溝通會上,張俠也對AWS的數據工作進行了深入闡釋,對AWS的數據服務、產品、重要概念及操作手法做了介紹,同時揭示了AWS構建數據湖進行分析的背后邏輯。

雷鋒網(公眾號:雷鋒網)特在其原話基礎上做了不改變原意的編輯與整理。

亞馬遜是怎么來實現(xiàn)數據湖的概念的?

數據湖的概念大概最早是2011年5月份提出來的,所以到現(xiàn)在只有八九年的時間。

亞馬遜在很早的時間就推動了有關數據湖的內容,首先亞馬遜有一個最基礎的云服務,這個服務叫做Amazon S3,是2006年3月14日白色情人節(jié)的那天發(fā)布的,是全球所有的公有云服務的第一款。Amazon S3可以存任何二進位為基礎的任何信息,包含結構化和非結構化的數據。左邊這個圖上半部的服務,可以圍繞這些數據來做各種各樣的操作。底下畫的是一些做數據轉移的工具。

5e79e9a7aaea9.png

從右邊可以大致看一下數據湖的流程圖或者平臺架構圖,總的來說各種各樣的數據,從鏡頭來的、從手機來的、從數據庫來的、從汽車上來的、從風力發(fā)電的發(fā)電機來的等等所有各種形式的數據,我們把它通過一定的方法提取出來,產生了之后存儲下來,做一個目錄登記,然后把它存在S3這個數據存儲,也是數據湖的核心里面。

然后再用各種各樣的分析手段把這些數據在右邊拿出來,它還可以還原成數據倉庫的性質,也可以變成各種報表,也可以變成一些預測,也可以用來做機器學習的分析。所以這個是整個數據湖的概念。

5e79ea8bc6fbb.png

基于此,我們看到數據湖是一個對各種各樣原始數據,就像雨水、河水等等,我們用洼地把它存起來,這里面有各種各樣的數據,我們在這之上可以做我們所需要的各類數據分析,有交互式的查詢、有運營的分析、也可以把數據進行交換甚至是買賣,可以可視化的看到這些數據,可以做實時的分析,可以做推薦、做預測,做所有的數據所需要的功能。

從AWS的角度講,我們有相應的服務來實現(xiàn)剛才所說的每一個功能。我會為大家做一下這些服務的簡單介紹。所有這些服務在我們的網站上都有很詳細的中英文介紹。所有這些服務都是以云的方式提供的,非常簡潔、非常容易上手,有很多還有操作的引導性質的內容。

我們在此之前已經講了我們有Amazon S3,可以存所有各類的數據,它有11個9的數據持久性,它是在云上面三個可用區(qū)存了六份,互為備份。它后端還有一個冷存儲叫Amazon Glacier(glacier的意思是冰河)。如果這個數據不常用,我們可以轉到那里面,費用可以降低很多,只是多需要三四個小時把它拿出來。

冷存儲還有一個深度的冷存儲Deep Archive。除了這個以外,在我開始講之前,還有一個叫Amazon DynamoDB,是一個非關系型數據庫,存鍵值這類的數據。在游戲里面比如每個玩家是第幾級、有多少血、用什么樣的武器,這樣的數都是鍵值配對的數。全球有大量這樣的數據都存儲在Amazon DynamoDB這樣的非關系型數據庫。

看一看其他的服務。一個是Amazon RDS服務,RDS全稱是Relational Database Service,是一個托管的關系型數據庫,這個是從AWS角度最早云計算推出的關系型數據庫,它支持像SQL Server、Oracle的數據庫、開源的PostgreSQL、MySQL這樣的數據庫。

5e79e9a79ee1a.png

我們很快又推出了我們專有的Amazon Aurora數據庫,這是一個關系型數據庫,是云原生的。剛才那個是托管在云上的關系型數據庫,現(xiàn)在這個Aurora是一個全部的全方位托管的,可以兼容MySQL和PostgreSQL純原生的數據庫。

這個數據庫推出以后,是AWS所有的云服務里面增長速度最快的一個服務,有大量的用戶,到目前為止,我提到這些服務都是在中國落地了,也都是在國內提供的。

很重要的一個產品是一個云的產品,叫Amazon Redshift,它是一個數據倉庫,但是它是一個云的數據倉庫,非常強大,非常能夠縮放,成本也是傳統(tǒng)的數據庫的大概1/10左右。如果你從數據庫還需要到數據倉庫,大家看到在云上我們同樣完全可以實現(xiàn)這些解決方案,從數據庫到數據倉庫。而且數據倉庫我們還有很多很多新型的準備,在這次會議當中不可能完全提到。

我給大家報告一下其中包括圖形數據庫Amazon Neptune,全球發(fā)布之后,在過去的半年之內也在中國落地。所以中國用戶也能使用最新型的圖形數據庫。

5e79e9f649a07.png

還有一類是Amazon EMR,EMR是Elastic MapReduce,它是用集群,用類似開源我們常聽說的Hadoop的方法來做大數據的集群分析。這個EMR產品是亞馬遜云上做海量大數據的研究它們之間的相關性的方法,這個產品我們也有了很長時間,在國內也早已提供。

還有一個很重要的概念,就是來處理實時的數據,因為和原來的比,現(xiàn)在的特點是更多要使用實時的數據,原來更多的是批量的歷史數據,處理實時數據我們的服務叫Amazon Kinesis,還有四個不同的類型,有的是直接處理視頻的數據流,有的是可以把數據直接導到關鍵的服務,每個各自都有不同的用法。這個實時數據分析是分析框架很重要的一部分。

兩個數據湖中重要服務:Amazon Athena和AWS Glue

重點給大家推介的是下面兩個服務,都是數據湖非常重要的組成部分,我們是在今年第一季度才在中國正式發(fā)布的。

5e79ea4b24f7b.png

第一個產品叫做Amazon Athena,英文Athena意思是雅典娜,這是交互式的數據查詢的工具。我們把各種數據都存在S3上面了,使用SQL可以直接在S3里面對這些數據做查詢,所以它是交互式的查詢,使得快速存起來的海量的數據有個工具可以像傳統(tǒng)的使用SQL語言一樣的方法,標準的數據庫查詢的語言,直接對S3做數據的查詢。

5e79ea19c47e5.png

第二個服務叫做AWS Glue,Glue是膠水的意思,是不同的數據庫服務之間的連接的作用。最主要有兩個功能,一個是ETL,ETL是Extract、Transform和Load,是數據里面一個最基本的操作,翻譯過來就叫數據的抽取、轉換和加載。原來從數據庫提到數據倉庫使用的都是ETL,所以Glue同時還是行使著數據的抽取、轉換、加載的功能。另外還多了一個功能,就是數據目錄服務的功能,因為把這些數據都存在數據湖里面,在這個過程中,要對這些數據打上標簽,把它做分類的工作。而且Glue有一個直接就像爬蟲一樣對數據湖里的海量數據,通過它的自動爬取,生成數據目錄的功能。

所以這兩個服務我們在海外推出有一段時間,但是我們在今年在國內都完成了它們的正式發(fā)布,所以目前我們和光環(huán)新網聯(lián)合運行的北京的區(qū)域,還有和西云數據在寧夏中衛(wèi)運營的區(qū)域里面,都已經提供了這些服務。

雖然數據湖是一個非常好的辦法,但是還是稍微有一定的復雜度。我非??斓慕榻B一下數據湖的操作步驟。

我們把數據設置好,存起來,然后把這些數據需要移動、加載到不同的地方,然后把數據清理好,建成數據目錄。要管理的這些存儲,然后把這些數據要安全的、合規(guī)的存好、管好,然后需要的時候有些工具把這些數據拿出來做各種分析。這就是數據湖操作的一些步驟。

5e79ea59e56ac.png

連續(xù)推出2款數據湖新品,AWS張俠剖析亞馬遜的數據核心競爭力

我們也專門推出了一個服務,這個服務叫做AWS Lake Formation,是在前年的技術大會上我們發(fā)布的,這個服務目前還沒有在中國正式推出,但是我們在今年很快的時間內會推出這個服務,把建立數據湖剛才的這套工作自動化,幫助你來操作,可以使很多企業(yè)在短短的幾天的時間完成數據湖的建設工作。

從亞馬遜來說,我們還有一些更多的服務,比如我們有量子的記賬式的數據庫、有時間序列的數據庫,還有兩三個新型數據庫目前還沒有提供。

在這之上是數據湖,數據湖最主要的元素是三大元素:一個是Amazon S3/Glacier,一個是AWS Glue,一個是AWS Lake Formation。AWS Lake Formation是目前沒有提供,但是很快會提供的一個產品服務。

數據分析的工具,Amazon Redshift是數據倉庫,Amazon EMR是大數據分析,AWS Glue在里面仍起關鍵作用,來實現(xiàn)無服務器的數據分析,然后是Amazon Athena(雅典娜)是做交互式的分析,Amazon Elasticsearch是做一些運維分析,還有Amazon Kinesis做實時的數據分析。

最上面是我們的一些展現(xiàn)工具,有圖形可視化的Amazon QuickSight,還有Amazon Polly、Amazon Transcribe、Amazon SageMaker。Amazon SageMaker是一個人工智能的服務,在中國很快會推出。

所以整個大數據分析服務的全景圖就以這張圖給大家展示出來。絕大多數服務在中國都已經落地,我們已經全方位的可以提供最先進的數據湖的大數據分析,我們有很多客戶來使用。

為什么使用AWS來構建數據湖和進行分析?

為什么使用AWS來構建數據湖和進行分析呢?

簡而言之,它既好用又高效又全面又安全,又能滿足多種多樣的需求。AWS的創(chuàng)新都是圍繞客戶需求來做的。

Forrester 2019年大數據分析的報告,AWS是排在最高的位置,其實還有類似的一些其他的,比如Gartner的數據庫的分析報告,還有數據管理工具解決方案的報告,我們都排在很好的位置。在全球范圍內,包括在中國,其實有大量的各種各樣的無論是互聯(lián)網公司還是傳統(tǒng)企業(yè)公司都在使用AWS的數據分析、數據湖的分析工具。

即使是使用了全套數據湖的也有上萬家企業(yè),其中大家看到有Airbnb,yelp相當于美國的大眾點評,有旅行的公司,有最大的制藥公司等等,幾乎覆蓋了各行各業(yè)。

不用講別人,就講講亞馬遜自己。

5e79ea5a03d6b.png

亞馬遜曾經是Oracle全球數據庫最大的用戶,它使用了75PB的數據庫,用了7500多個數據庫的例子,整個亞馬遜里面1000多個不同的團隊,從運營、電商、市場營銷、庫存,幾乎業(yè)務的很多方面原來都是基于Oracle的數據庫。

我們在過去一年半到兩年的時間做了一件事情,就是全方位的遷出了Oracle的數據庫,去年大概11月份我們全部遷移了Oracle的數據庫,遷移到了我們自己相對應的產品。這個遷移解決了原來擴展困難、費用昂貴,像Oracle支持高額費用等等一系列的問題,減少了數據庫費用成本60%,減少了管理費用70%,增加的性能高達40%。

另外一個例子,就是亞馬遜其實在整個企業(yè)內部建立了一個數據湖,這個數據湖還專門有一個內部的詞,叫Galaxy(銀河),這不是AWS的一個產品,這是亞馬遜的一個數據湖的部署。

整個數據湖把亞馬遜的數據整合在一起,做各種各樣大數據的分析,里面存了50PB到100PB的數據,這里面通過它,亞馬遜每一天有多達60萬的分析任務,各種各樣的數據的分析,從給用戶的推薦、各種運營的信息、庫存的信息、需要購買的信息、物價的信息,都是可以通過數據湖來實現(xiàn)的功能。

這也是亞馬遜的一個核心競爭力。(雷鋒網)

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

立即登錄,閱讀全文
版權說明:
本文內容來自于雷鋒網,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家