AWS 2023擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)Redshift產(chǎn)品廣度,打造企業(yè)資料全能分析中心

來(lái)源:十輪網(wǎng)
作者:十輪網(wǎng)
時(shí)間:2022-12-20
2227
今年AWS云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)服務(wù)Redshift推出正式滿10周年,但在這個(gè)特別的一年,AWS在年度大會(huì)上卻一反常態(tài),沒(méi)有發(fā)布重大升級(jí)更新。

2022-12-19-AWS-1.jpg

今年AWS云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)服務(wù)Redshift推出正式滿10周年,但在這個(gè)特別的一年,AWS在年度大會(huì)上卻一反常態(tài),沒(méi)有發(fā)布重大升級(jí)更新。取而代之的是,AWS在會(huì)中推出許多新功能,都是和Redshift相關(guān),從更緊密資料集成、流媒體資料分析到強(qiáng)化安全訪問(wèn)。盡管看似都是些小更新,但AWS沒(méi)說(shuō)的是,藏在Redshift這次更新背后的更大企圖,就是要把Redshift打造成企業(yè)資料集散地,來(lái)符合各種現(xiàn)代化應(yīng)用的使用,以及能匯集整理各種類型資料,提供AI分析和后續(xù)應(yīng)用,更要讓這個(gè)能夠通吃各種資料類型的新一代數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),成為加速企業(yè)資料現(xiàn)代化的關(guān)鍵產(chǎn)品。

要讓Redshift成為通吃各種資料類型的新一代數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)

AWS數(shù)據(jù)和機(jī)器學(xué)習(xí)副總裁Swami Sivasubramanian在數(shù)據(jù)主題演講中指出:“所有新功能都瞄準(zhǔn)同一個(gè)終極目的,不管資料在哪里都可以集中到Redshift上來(lái)分析?!憋@然,AWS就是押寶Redshift,未來(lái)能夠成為企業(yè)資料的核心。

Redshift是第一個(gè)采用MPP(大量平行處理)架構(gòu)的云計(jì)算數(shù)據(jù)倉(cāng)庫(kù),號(hào)稱比本地部署能以更經(jīng)濟(jì)高效的方式對(duì)大量數(shù)據(jù)進(jìn)行快速分析及查詢,并提供跨數(shù)據(jù)倉(cāng)庫(kù)、核心數(shù)據(jù)庫(kù)和資料湖分析結(jié)構(gòu)化和半結(jié)構(gòu)化資料執(zhí)行SQL查詢,更具有高擴(kuò)展彈性,Redshift Serverless在今年7月正式GA,讓云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)也能應(yīng)對(duì)資料量多變的資料分析任務(wù)。目前,上萬(wàn)家企業(yè)使用Redshift,每天處理資料總量達(dá)到EB級(jí)。

但要打造Redshift成為企業(yè)統(tǒng)一的資料集散地,只是這樣還不夠。從今年功能更新來(lái)看,AWS對(duì)數(shù)據(jù)倉(cāng)庫(kù)布局更加完整,正一步步打通Redshift服務(wù)在企業(yè)資料架構(gòu)中的各環(huán)節(jié),讓它的產(chǎn)品完整度更高,涵蓋到不同應(yīng)用層面,支持各種企業(yè)分析需求和資料集成。

AWS今年推出的第一個(gè)新功能,就是將資料前處理ETL步驟簡(jiǎn)化,甚至全面Zero-ETL化。ETL指的是資料萃取、轉(zhuǎn)置、加載的過(guò)程,以往企業(yè)會(huì)使用這個(gè)方式將多系統(tǒng)中的資料集成到單一數(shù)據(jù)倉(cāng)庫(kù)中,以便進(jìn)行分析和后續(xù)處理,過(guò)去Redshift要從其他數(shù)據(jù)庫(kù)、資料湖拿取資料,都得執(zhí)行ETL程序,但如此一來(lái),資料分析就會(huì)太慢,甚至針對(duì)不同數(shù)據(jù)源或資料類型,就需要?jiǎng)?chuàng)建不同ETL流程,更不利于后續(xù)維護(hù)。直到現(xiàn)在才解決。

靠Zero-ETL化,解決Redshift跨數(shù)據(jù)庫(kù)資料集成的痛點(diǎn)

AWS推出Aurora Zero-ETL integration with Amazon Redshift這個(gè)新功能,結(jié)合Zero-ETL做法,讓Aurora數(shù)據(jù)庫(kù)中存儲(chǔ)的結(jié)構(gòu)化資料可以自動(dòng)匯進(jìn)Redshift,不需要?jiǎng)?chuàng)建和維護(hù)復(fù)雜的資料處理流程,來(lái)執(zhí)行ETL操作。因?yàn)榭梢詫①Y料同步時(shí)間縮短到幾秒內(nèi),這意味著,企業(yè)可以更快從Aurora數(shù)據(jù)庫(kù)取得所需資料,進(jìn)行后續(xù)分析,還能執(zhí)行如ML高端分析、具體查看圖、資料共享以及聯(lián)邦查詢等,并從這些綜合資料分析中獲得整體的洞察。

不僅如此,Redshift還添加自動(dòng)復(fù)制功能,讓S3資料湖和Redshift之間更加緊密集成,用戶從S3中將資料復(fù)制到Redshift中,只要一鍵就能完成所有操作,不像以前多使用S3來(lái)做備份,需要特別分析才將資料放進(jìn)Redshift。

有了這個(gè)新功能以后,以后只要偵測(cè)到S3文件夾有更新文件,就會(huì)自動(dòng)執(zhí)行Redshift復(fù)制任務(wù),等于是從S3就能直通到Redshift數(shù)據(jù)倉(cāng)庫(kù),就能大大簡(jiǎn)化資料復(fù)制流程。對(duì)于資料分析人員來(lái)說(shuō),只要從Redshift就能拿到各種類型的S3資料,而且能支持不同文件格式,如CSV、parquet檔或其他文本檔。不過(guò)目前還是預(yù)覽版。

不僅能更緩存用AWS資料,對(duì)于第三方資料集成與分析,AWS推出了名為Informatica Data Loader的免費(fèi)資料集成工具,只要通過(guò)Redshift控制臺(tái),就能將第三方資料文件快速上傳至Redshift,目前可以支持Salesforce、Marketo在內(nèi)等超過(guò)30個(gè)原始資料源,可跨多種資料格式在Redshift中執(zhí)行高速且大量的資料上傳作業(yè)。

云計(jì)算流媒體資料的集成,也是Redshift這波更新一大重點(diǎn),集成Kinesis Data Streams和Amazon MSK兩大資料流媒體引擎,強(qiáng)化Redshift對(duì)于流媒體資料截取的支持能力,使企業(yè)在取得流媒體資料時(shí),不需要像以往得先將資料暫存到S3中,隔段時(shí)間后,再將整批數(shù)據(jù)加載到Redshift中,導(dǎo)致流媒體分析的速度變慢?,F(xiàn)在就沒(méi)有這個(gè)問(wèn)題,所有流媒體資料都能接近即時(shí)導(dǎo)入到Redshift數(shù)據(jù)倉(cāng)庫(kù)中。

甚至,AWS對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的布局,如今也直接集成流媒體大數(shù)據(jù)分析領(lǐng)域的主流平臺(tái)Spark。借助Amazon Redshift Integration for Apache Spark這個(gè)新功能,企業(yè)以后在Redshift和無(wú)服務(wù)器Redshift服務(wù)上執(zhí)行Spark應(yīng)用變得更簡(jiǎn)單,不像以往使用Amazon EMR、SageMaker以及AWS Glue服務(wù)執(zhí)行Spark應(yīng)用時(shí),需通過(guò)第三方Spark連接器才能讀寫Redshift資料,現(xiàn)在只要通過(guò)預(yù)先打包好的Redshift Connector for Spark工具,就能迅速取得Redshift資料,甚至激活速度比起傳統(tǒng)快10倍,還能支持Java、Python、Scala等語(yǔ)言編寫Spark應(yīng)用程序。這也意味著,將可擴(kuò)大數(shù)據(jù)倉(cāng)庫(kù)在流媒體分析大數(shù)據(jù)應(yīng)用范圍。

資料隱私和治理獲得大幅強(qiáng)化

資料管控更是Redshift數(shù)據(jù)倉(cāng)庫(kù)要能夠通吃各種資料類型成為統(tǒng)一的資料集散地的關(guān)鍵。

在今年更新中,AWS也大幅強(qiáng)化了Redshift的安全與可靠性。在安全性上,AWS推出兩項(xiàng)訪問(wèn)管控新功能,前者是動(dòng)態(tài)資料遮罩(Dynamic Data Masking)預(yù)覽功能,這是資料保護(hù)常見(jiàn)的功能,現(xiàn)在AWS把這項(xiàng)能力放進(jìn)Redshift中,強(qiáng)化資料隱私和處理。基于該功能,用戶從SQL查詢結(jié)果中就只會(huì)看到篩選過(guò)濾后的內(nèi)容,對(duì)涉及敏感性個(gè)人信息或其他機(jī)密敏感資料就會(huì)進(jìn)行遮敝或模糊化處理,沒(méi)有賦給權(quán)限的用戶就看不到,防止敏感性資料遭違法搜集和利用,以確保合乎隱私的要求。

后者則是Lake Formation-managed Redshift datashares功能,AWS讓企業(yè)也能利用資料湖管理工具Lake Formation管理Redshift的資料共享權(quán)限,通過(guò)這個(gè)集中式管理方式,企業(yè)就能使用更精細(xì)的訪問(wèn)控制,設(shè)置不同角色的資料共享權(quán)限,也能確保在不同AWS賬戶或跨區(qū)域中,都能安全地共享Redshift集群即時(shí)資料。目前同樣推出預(yù)覽板。

AWS推出最后一項(xiàng)新功能,則是可以提高Redshift服務(wù)可用性。Redshit添加Multi-AZ功能,讓企業(yè)可以在多個(gè)可用區(qū)部署Redshift,借此可以達(dá)到跟其他AWS數(shù)據(jù)庫(kù)服務(wù)一樣具備高可用,來(lái)確保服務(wù)可以全天運(yùn)行不停機(jī),避免一旦服務(wù)中斷,企業(yè)就沒(méi)辦法通過(guò)它提供預(yù)測(cè)或協(xié)助高層加快決策,導(dǎo)致可能造成運(yùn)營(yíng)業(yè)虧損失的風(fēng)險(xiǎn)。除了可以Redshift RA3實(shí)例將數(shù)據(jù)存儲(chǔ)在Redshift Managed Storage中,也支持常見(jiàn)的災(zāi)難恢復(fù)功能,如自動(dòng)備份、故障轉(zhuǎn)移等。

AWS
原文鏈接:點(diǎn)擊前往 >
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家