【環(huán)球網(wǎng)科技報道 記者 李文瑤】當(dāng)前,越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成為企業(yè)急需解決的問題。
對此,亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞?wù)J為,韌性是現(xiàn)代云服務(wù)至關(guān)重要的組成部分。
據(jù)了解,韌性是指應(yīng)用程序抵御中斷或從中恢復(fù)的能力,包括與基礎(chǔ)設(shè)施、依賴服務(wù)、錯誤配置、網(wǎng)絡(luò)問題和負(fù)載激增相關(guān)的中斷。
因此,在云計算的韌性技術(shù)實現(xiàn)中,亞馬遜云科技關(guān)注基礎(chǔ)設(shè)施、架構(gòu)設(shè)計和運營機制。據(jù)其介紹,目前亞馬遜云科技在其云服務(wù)的設(shè)計與實現(xiàn)中,始終將韌性作為核心考量因素之一。例如,通過將服務(wù)的控制面和數(shù)據(jù)面分離設(shè)計,即使控制面發(fā)生故障,數(shù)據(jù)面也能繼續(xù)運行,這類似于出行系統(tǒng)中的指揮中心與車輛運行的關(guān)系。
“控制面和數(shù)據(jù)面的隔離,類似于叫車軟件和打車,兩者其實是相對獨立的。當(dāng)你坐上車以后,如果一段時間叫車軟件沒有信號無法響應(yīng)了,也不影響司機將你送到預(yù)定的目的地。很多故障失效的情況關(guān)鍵在于沒有把數(shù)據(jù)面和控制面做到很好的隔離。”代聞?wù)f道。
此外,亞馬遜云科技還采用了“單元架構(gòu)”設(shè)計模式,將服務(wù)分割為多個獨立的單元,每個單元間不共享資源,從而進(jìn)一步降低了故障發(fā)生時的影響范圍。
韌性是一個持續(xù)的過程,而非一次性工作,需要在業(yè)務(wù)需求、可靠性、成本和系統(tǒng)復(fù)雜度之間找到平衡點;诮(jīng)驗分解, 亞馬遜云科技開發(fā)了韌性系統(tǒng)建設(shè)生命周期框架, 該框架包含五個關(guān)鍵階段, 并強調(diào)韌性是一個持續(xù)的生命周期,需要不斷重復(fù)五個階段,以應(yīng)對不斷變化的環(huán)境和需求。
2022 年,奇瑞捷豹路虎選擇將關(guān)鍵的 SAP 系統(tǒng)遷移至亞馬遜云科技上,成功地邁出了數(shù)字化轉(zhuǎn)型的關(guān)鍵一步。通過將 SAP 系統(tǒng)所有模塊平移上云,奇瑞捷豹路虎的業(yè)務(wù)敏捷性、人員工作效率大幅提升。其中,利用亞馬遜云科技獨有的一個區(qū)域三個可用區(qū)特性,并在亞馬遜云科技特有的自適應(yīng)跨可用區(qū)高可用集群進(jìn)行整體切換基礎(chǔ)上,創(chuàng)新性提出高可用和同城災(zāi)備融合方案,使用云上三個可用區(qū)及引入仲裁方案使集群可靠性、穩(wěn)定性得到增強,最大限度地減少了停機時間和保障零數(shù)據(jù)丟失,故障切換時間從半小時縮短至 3 分鐘。
此外,代聞還強調(diào)了將韌性工程與軟件開發(fā)周期相結(jié)合的重要性,以確保系統(tǒng)在開發(fā)初期就具備韌性的特質(zhì)。為了幫助客戶構(gòu)建端到端的韌性,亞馬遜云科技提供了一系列服務(wù)和工具,如Amazon Resilience Analysis Framework、Amazon Aurora、Amazon DynamoDB、Amazon Fault Injection Simulator等,并通過五大階段的方法論指導(dǎo)客戶進(jìn)行韌性的建設(shè)。