韌性,一個物理學概念,表示材料在變形或者破裂過程中吸收能量的能力。韌性越好,則發(fā)生脆性斷裂的可能性越小。
如今,韌性也延伸到企業(yè)特質(zhì)、產(chǎn)品特征之中,用于形容企業(yè)、產(chǎn)品乃至服務(wù)的優(yōu)劣。同樣,隨著云計算在全球范圍內(nèi)的普及與應(yīng)用,云計算的韌性亦十分重要。所謂云韌性,即云應(yīng)用程序抵御中斷或從中恢復(fù)的能力,包括與基礎(chǔ)設(shè)施、依賴服務(wù)、錯誤配置、網(wǎng)絡(luò)問題和負載激增相關(guān)的中斷。
云韌性既是云廠商眾多服務(wù)中的重要組成部分,也是其自身技術(shù)能力的體現(xiàn),更是用戶選擇云服務(wù)的關(guān)鍵參考標準。
全球云服務(wù)故障的頻發(fā),更是引起眾多用戶對于云韌性的關(guān)注。作為全球云計算市場的佼佼者,亞馬遜云科技如何看待云韌性的重要性?如何建設(shè)和實踐自身的云韌性?云韌性未來有哪些關(guān)鍵趨勢?
近日,亞馬遜云科技在《2024亞馬遜云科技云端韌性之道》溝通會上詳細闡述了這一切。
云韌性體現(xiàn)在哪些方面
IDC認為,在數(shù)字化的世界中,韌性是指利用數(shù)字化迅速適應(yīng)業(yè)務(wù)中斷的能力,不僅可以快速恢復(fù)業(yè)務(wù)運營,還可以利用變化的環(huán)境,通過創(chuàng)新尋找新的商業(yè)機會。在快速變化的市場環(huán)境中,企業(yè)通常希望云服務(wù)具備出色業(yè)務(wù)連續(xù)性。尤其是隨著企業(yè)業(yè)務(wù)變得愈發(fā)復(fù)雜之際,當變化、故障或者風險發(fā)生時,企業(yè)更加希望云韌性保障自身業(yè)務(wù)不受影響。
那么,一家云服務(wù)商的云韌性主要體現(xiàn)在哪些方面?在亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞看來,云韌性主要包括基礎(chǔ)設(shè)施、系統(tǒng)架構(gòu)和運營機制三個方面來實現(xiàn)。
例如,像數(shù)據(jù)中心等基礎(chǔ)設(shè)施發(fā)生的鋰電池著火事件,在現(xiàn)實中很難避免,一旦發(fā)生可能就會造成云服務(wù)商單點故障的影響范圍擴大化。因此,通常云服務(wù)商將基礎(chǔ)設(shè)施布局到多個地理區(qū)域,并且通過設(shè)置可用區(qū)來提升基礎(chǔ)設(shè)施的可用性,一旦某個基礎(chǔ)設(shè)施發(fā)生故障或者風險能夠快速切換。
代聞介紹,云服務(wù)韌性的建設(shè)并非是一次性工作,而是一個持續(xù)的過程,并且需要在業(yè)務(wù)需求、可靠性、成本和系統(tǒng)復(fù)雜度之間找到平衡點。亞馬遜云科技在其云服務(wù)的設(shè)計與實現(xiàn)中,始終將韌性作為核心考量因素之一。
具體來看,在基礎(chǔ)設(shè)施方面,亞馬遜云科技在全球34個地理區(qū)域部署108個可用區(qū),包括在中國的北京和寧夏兩大區(qū)域,每個區(qū)域均包含三個或更多獨立電力、制冷及物理安全設(shè)施的可用區(qū),且這些可用區(qū)之間距離適中,約同一區(qū)域內(nèi)的可用區(qū)之間的物理距離也經(jīng)過精心計算——通常是100公里以內(nèi)??捎脜^(qū)的這種隔離機制,既能防止如供電、冷卻等常見故障點,也能避免同時受到如地震、洪水等大規(guī)模災(zāi)害的影響。
“亞馬遜云科技在基礎(chǔ)設(shè)施的冗余、穩(wěn)定性等方面一直都采用業(yè)界最高標準,處于絕對領(lǐng)先?!?/p>
“亞馬遜云科技在基礎(chǔ)設(shè)施方面非常重視中國用戶的需求。除了國內(nèi)基礎(chǔ)設(shè)施之外,考慮到中國企業(yè)出海的趨勢,亞馬遜云科技剛剛在馬來西亞新的可用區(qū),在基礎(chǔ)設(shè)施的選址、設(shè)計、網(wǎng)絡(luò)等均采用極高標準。”
——代聞
亞馬遜云科技大中華區(qū)
解決方案架構(gòu)總經(jīng)理
在系統(tǒng)架構(gòu)設(shè)計方面,亞馬遜云科技通過四大核心要素——區(qū)域隔離與多可用區(qū)布局、控制面與數(shù)據(jù)面的獨立設(shè)計、單元化架構(gòu)策略以及隨機分片技術(shù),確保云服務(wù)的高度穩(wěn)定性和可用性。其中,區(qū)域隔離與多可用區(qū)策略依據(jù)故障隔離邊界將服務(wù)精細劃分為可用區(qū)級、區(qū)域級和全球級。
例如,通過將服務(wù)的控制面和數(shù)據(jù)面分離設(shè)計,即使控制面發(fā)生故障,數(shù)據(jù)面也能繼續(xù)運行,這類似于出行系統(tǒng)中的指揮中心與車輛運行的關(guān)系。
代聞介紹,控制面和數(shù)據(jù)面的隔離,類似于叫車軟件和打車,兩者其實是相對獨立的。當你坐上車以后,如果一段時間叫車軟件沒有信號無法響應(yīng),也不影響司機將你送到預(yù)定的目的地。很多故障失效的情況關(guān)鍵在于沒有把數(shù)據(jù)面和控制面做到很好的隔離。此外,亞馬遜云科技還采用了“單元架構(gòu)”設(shè)計模式,將服務(wù)分割為多個獨立的單元,每個單元間不共享資源,從而進一步降低了故障發(fā)生時的影響范圍。
在運營機制方面,亞馬遜云科技采取服務(wù)責任模型、運營就緒審查、持續(xù)安全部署及糾錯流程四大模塊的核心機制。例如,在發(fā)布新服務(wù)前,嚴格的運營就緒性審查流程可保障服務(wù)復(fù)原力及最佳實踐達標,隨后通過每周運營會議持續(xù)監(jiān)控性能與潛在問題。又如,糾錯流程也很關(guān)鍵,一旦錯誤發(fā)現(xiàn),如何快速糾錯就成為恢復(fù)業(yè)務(wù)的關(guān)鍵能力。亞馬遜云科技面對問題,糾錯流程迅速啟動,通過深入分析根本原因并推動全公司范圍內(nèi)的改進,不僅即時解決問題,還將其轉(zhuǎn)化為未來服務(wù)優(yōu)化的寶貴經(jīng)驗,避難重復(fù)錯誤。
“亞馬遜云科技推行DevOps文化,強調(diào)開發(fā)與運維的緊密聯(lián)系。通過打破傳統(tǒng)開發(fā)與運維之間的壁壘,亞馬遜云科技提升整體運營效率。此外,亞馬遜云科技還提供資源部署、配置管理、性能監(jiān)控、故障排查等豐富的自動化工具來支持運營機制的實施,”代聞表示。
通過云韌性真正賦能用戶
作為云計算的領(lǐng)頭羊,亞馬遜云科技已經(jīng)積累了豐富的云韌性建設(shè)經(jīng)驗,并且基于不斷積累的經(jīng)驗開發(fā)出韌性系統(tǒng)建設(shè)生命周期框架,包括設(shè)定目標、設(shè)計和實施、驗證和測試、持續(xù)運營以及響應(yīng)和改進,通過正向循環(huán),不斷強化自身暈韌性,以應(yīng)對不斷變化的環(huán)境和需求。
毫無疑問,當前的市場中,結(jié)構(gòu)性不確定性正在陡增,錯綜復(fù)雜的外部環(huán)境、極速發(fā)展的數(shù)字化技術(shù)浪潮都可能對產(chǎn)業(yè)格局帶來根本性影響。如何與不確定性共存,甚至在不確定性的市場中保持高韌性、獲得逆勢成長,這是所有企業(yè)都在積極思考的話題。面對市場種種不確定性,企業(yè)需要具備“抗擊打能力”,能夠抵御各種沖擊。
因此,亞馬遜云科技在積極賦能客戶利用“云韌性”提升“云中韌性”。亞馬遜云科技致力于不斷為客戶提供一套全面而深入的架構(gòu)策略、高效運營的最佳實踐服務(wù)、前沿的技術(shù)工具以及專業(yè)的指導(dǎo)方案,旨在全方位助力客戶在云端環(huán)境中構(gòu)建出既穩(wěn)定靈活,又能夠迅速適應(yīng)各種挑戰(zhàn)與變化的韌性應(yīng)用程序。
例如,客戶可以使用Amazon Resilience Hub來設(shè)置目標,根據(jù)這些目標評估韌性狀況,并根據(jù)Amazon Well-Architected Framework和Amazon Trusted Advisor的建議實施改進措施。
奇瑞捷豹路虎是亞馬遜云科技賦能客戶的典型例子。通過將SAP系統(tǒng)遷移至亞馬遜云科技上,利用亞馬遜云科技獨有的一個區(qū)域三個可用區(qū)特性,以及特有的自適應(yīng)跨可用區(qū)高可用集群進行整體切換,實現(xiàn)高可用和同城災(zāi)備融合,最大限度地減少了停機時間和保障零數(shù)據(jù)丟失,故障切換時間從半小時縮短至3分鐘。
故障總在情理之中、意料之外?!皝嗰R遜云科技將持續(xù)為客戶提供廣泛、深入的架構(gòu)及運營最佳實踐的服務(wù)、工具和指導(dǎo),幫助客戶在云中構(gòu)建和運行韌性的應(yīng)用程序?!贝劚硎?。