這一連串問題都關(guān)聯(lián)到一個(gè)核心詞:穩(wěn)定性。馬勁表示,阿里云專有云和公共云同根同源,擁有和公共云一樣的穩(wěn)定性,簡(jiǎn)單來說,專有云就是阿里云的一種部署形態(tài),相比公共云部署在機(jī)房,只是部署地點(diǎn)發(fā)生變化,整體的架構(gòu)實(shí)現(xiàn)和使用體驗(yàn)和公共云保持一致。
基于公共云架構(gòu)的專有云平臺(tái)
很多大企業(yè)希望把公共云上的能力完整部署在自己的數(shù)據(jù)中心,也就是將專有云和公共云組成混合云,既能夠很好應(yīng)對(duì)自己對(duì)數(shù)據(jù)主權(quán)的需求,同時(shí)又能夠處理好彈性的場(chǎng)景。
“在數(shù)據(jù)中心領(lǐng)域,我們提供了完整的專有云,就像一臺(tái)云計(jì)算機(jī)裝到客戶的數(shù)據(jù)中心,讓整體使用非常便捷?!?/p>
過去通過License模式使用專有云,在現(xiàn)場(chǎng)還發(fā)布了一種新的收費(fèi)模式:訂閱模式,可以讓企業(yè)選擇更加靈活,并且成本也下降了。
過去四年,阿里云已經(jīng)把專有云部署到了金融、能源、公共服務(wù)等行業(yè),提供了60多種云產(chǎn)品,最大單集群規(guī)模達(dá)到10000。
混沌工程:錘煉產(chǎn)品穩(wěn)定性
為提升系統(tǒng)穩(wěn)定性,阿里云引入了“混沌工程”理念,在仿真的生產(chǎn)環(huán)境中做千倍高頻的異常注入,對(duì)不符合預(yù)期的系統(tǒng)反饋不斷優(yōu)化,從而持續(xù)打磨穩(wěn)定性。
馬勁在現(xiàn)場(chǎng)解釋了混沌工程(Chaos Engineering)的原始概念:在進(jìn)行每個(gè)實(shí)驗(yàn)之前工程師會(huì)提出一個(gè)導(dǎo)致系統(tǒng)失效的假設(shè)情景,進(jìn)而設(shè)計(jì)一個(gè)實(shí)驗(yàn)去引發(fā)或模擬該情景,并以受控、自動(dòng)化的方式開展實(shí)驗(yàn)。通過觀測(cè)系統(tǒng)的反饋,對(duì)不符合預(yù)期的結(jié)果進(jìn)行深入的分析并持續(xù)的改進(jìn)。
對(duì)于阿里云來說,更好的穩(wěn)定性是永恒的命題,引入混沌工程這一理念再配合上不斷的實(shí)踐則將是最好的證明該命題的方式。
百種異?,F(xiàn)場(chǎng)隨機(jī)注入破壞系統(tǒng)
去年的杭州云棲大會(huì)上,專有云做了斷電演示,這次馬勁又帶來了云原生架構(gòu)下現(xiàn)場(chǎng)隨機(jī)破壞。
在場(chǎng)外,搭建了專有云“企業(yè)號(hào)”空間站現(xiàn)場(chǎng)數(shù)據(jù)中心,該數(shù)據(jù)中心由8大品牌服務(wù)器搭建,模擬了客戶真實(shí)的復(fù)雜生產(chǎn)環(huán)境,同時(shí)現(xiàn)場(chǎng)直播應(yīng)用便搭載在該數(shù)據(jù)中心的系統(tǒng)上,在注入異常后將直觀的通過觀察直播是否卡頓來判斷專有云系統(tǒng)是否真的穩(wěn)定。
目前,阿里云異常庫(kù)中有超過12600種異常,現(xiàn)場(chǎng)提供了100種隨機(jī)異常,讓觀眾隨機(jī)選擇,最終被選中的是“ECS云產(chǎn)品網(wǎng)絡(luò)傳輸包亂序比例陡增”和“SLB云產(chǎn)品網(wǎng)絡(luò)傳輸時(shí)延陡增”。
在分別注入這兩個(gè)異常場(chǎng)景后,直播視頻仍然保持順暢毫無卡頓。馬勁解釋,這是因?yàn)樵谌粘9ぷ髦?,已?jīng)通過注入這類異常建出了“專有云免疫系統(tǒng)”。
此外,他還演示了極端環(huán)境下的超級(jí)異?!昂诵腅CS集群局部網(wǎng)絡(luò)異常且另一臺(tái)ECS計(jì)算資源飽和”。
這個(gè)異常模擬了業(yè)務(wù)高峰期服務(wù)器已經(jīng)超高負(fù)載時(shí)的網(wǎng)絡(luò)故障,比如雙十一的時(shí)候,這類情況極易引發(fā)系統(tǒng)雪崩,一旦雪崩恢復(fù)時(shí)間超過幾小時(shí)甚至幾天。不過,現(xiàn)場(chǎng)在出現(xiàn)卡頓、花屏以后的十幾秒便恢復(fù)正常。而這背后主要是負(fù)載均衡的快速隔離及彈性伸縮服務(wù)智能資源分配及時(shí)發(fā)揮了作用。
“在真實(shí)業(yè)務(wù)場(chǎng)景中,故障難以避免,阿里云將杜絕冷漠和惰性,幫助客戶提前發(fā)現(xiàn)各種問題。”