1、全面有效的故障模式庫(kù)

基于華為在ICT領(lǐng)域10多年的實(shí)踐積累和數(shù)百產(chǎn)品的實(shí)際應(yīng)用的沉淀,電信領(lǐng)域軟件的高要求,我們通過(guò)正向分析、事故分析、業(yè)界案例分析三個(gè)維度建立全面的故障模式庫(kù)。

2、精準(zhǔn)高效的故障模擬

我們通過(guò)軟件模擬各種硬件故障,對(duì)應(yīng)用無(wú)侵入,而且跟應(yīng)用的實(shí)現(xiàn)語(yǔ)言無(wú)關(guān)。

3、端到端全自動(dòng)化測(cè)評(píng)

我們實(shí)現(xiàn)了智能識(shí)別故障對(duì)象,而且全自動(dòng)化運(yùn)行,自動(dòng)度量KPI,自動(dòng)實(shí)現(xiàn)風(fēng)險(xiǎn)評(píng)估,生成測(cè)評(píng)報(bào)告,測(cè)試工程可反復(fù)執(zhí)行。防止失敗的最佳方法就是經(jīng)常失敗。在真實(shí)環(huán)境測(cè)試,而不是模擬環(huán)境。通過(guò)我們的端到端全自動(dòng)化測(cè)評(píng),可以實(shí)現(xiàn)這個(gè)目標(biāo)。

華為云混沌工程應(yīng)用場(chǎng)景

image.png

入門級(jí)可靠性測(cè)試:手工注入

功能:提供對(duì)Kubernetes集群、彈性云服務(wù)器的單業(yè)務(wù)實(shí)例、單故障模式的注入。

適用場(chǎng)景:開發(fā)人員針對(duì)確定故障的自驗(yàn)證;測(cè)試人員針對(duì)可靠性問(wèn)題回歸驗(yàn)證等。

特點(diǎn):操作簡(jiǎn)單,故障注入/清除結(jié)果及系統(tǒng)的表現(xiàn)清晰可見。

image.png

手工注入是混沌工程的入門級(jí)功能,操作非常容易,結(jié)果直接清晰。

1、首先在服務(wù)所在的容器集群或者節(jié)點(diǎn)上安裝探針,一鍵安裝,秒級(jí)創(chuàng)建,速度很快;

2、然后選擇注入對(duì)象和注入的故障,還可以選擇設(shè)置告警、CPTS壓測(cè)工程,就可以完成一次故障注入;

3、再接著就是以5分鐘為維度獲取監(jiān)控?cái)?shù)據(jù)生成測(cè)試報(bào)告;

4、最后你就可以基于報(bào)告來(lái)評(píng)估服務(wù)可靠性的質(zhì)量了。

全流程可視化操作,只用鼠標(biāo)點(diǎn)點(diǎn)點(diǎn)就可以了;簡(jiǎn)單易用,使用門檻低,非常方便開發(fā)者和測(cè)試人員進(jìn)行基本的可靠性測(cè)試。

進(jìn)階級(jí)可靠性測(cè)試:故障演練

功能:提供對(duì)單工作負(fù)載的隨機(jī)故障注入,預(yù)置了多種入門級(jí)和進(jìn)階級(jí)演練場(chǎng)景。

適用場(chǎng)景:線下隨機(jī)故障注入測(cè)試;線上例行故障演練、專項(xiàng)演練等。

特點(diǎn):模型化的場(chǎng)景定義、靈活的編排調(diào)度、豐富的評(píng)估報(bào)告。

image.png

故障演練主要使用場(chǎng)景是線上例行故障演練和專項(xiàng)演練。相比于手工注入,故障演練會(huì)提供多種入門級(jí)和進(jìn)階級(jí)的演練場(chǎng)景。上圖為傳統(tǒng)的手工演練流程,與混沌工程提供的故障演練能力對(duì)比。

三、四年前我們還處于傳統(tǒng)手工演練階段,全流程的手工進(jìn)行,后續(xù)逐步演變?yōu)楝F(xiàn)在混沌工程提供的全自動(dòng)化故障演練能力,經(jīng)我們自己實(shí)際使用對(duì)比,現(xiàn)在的自動(dòng)化演練過(guò)程比手工更準(zhǔn)確和規(guī)范,避免人為導(dǎo)致的差錯(cuò);可靠性專項(xiàng)測(cè)試人員投入的時(shí)間可以減少80%,端到端效率提升10倍以上。

我們提供如下的預(yù)置模板,同時(shí)也支持自定義演練任務(wù)。

image.png

高階級(jí)可靠性測(cè)試:自動(dòng)測(cè)評(píng)

功能:提供對(duì)多工作負(fù)載全量的可靠性測(cè)評(píng)。

適用場(chǎng)景:云服務(wù)的全量可靠性測(cè)評(píng);不同服務(wù)、不同版本的可靠性能力對(duì)比。

特點(diǎn):智能對(duì)象識(shí)別、自動(dòng)用例生成、無(wú)腳本化執(zhí)行、自動(dòng)KPI度量、豐富的評(píng)估報(bào)告。

自動(dòng)測(cè)評(píng)最大的特點(diǎn)就是智能對(duì)象識(shí)別、自動(dòng)用例生成、無(wú)需定制腳本的全自動(dòng)化執(zhí)行、自動(dòng)KPI度量生成豐富的評(píng)估報(bào)告,可以對(duì)不同服務(wù)、不同版本的可靠性能力進(jìn)行對(duì)比。

自動(dòng)測(cè)評(píng)服務(wù)的智能對(duì)象識(shí)別能力,保證了故障對(duì)象覆蓋的全面性,能有效避免人工測(cè)試出現(xiàn)的遺漏。自動(dòng)用例生成與無(wú)腳本化執(zhí)行,大幅節(jié)省了用例設(shè)計(jì)和自動(dòng)化腳本編寫的工作,同時(shí)降低了自動(dòng)化可靠性測(cè)試對(duì)人員技能的要求。

系統(tǒng)預(yù)置了3種常見場(chǎng)景模板,同時(shí)支持用戶自定義。既可以用預(yù)置目標(biāo)快速創(chuàng)建任務(wù),也可以靈活的定制任務(wù)。

image.png

測(cè)評(píng)報(bào)告

混沌工程通過(guò)結(jié)合華為云上的CCE、ECS、CPTS、AOM、APM等服務(wù),提供了一套完整的端到端的可靠性測(cè)試解決方案,解決了測(cè)什么、如何測(cè)、如何評(píng)價(jià)的問(wèn)題。

image.png

在華為云上,云服務(wù)部署的載體要么是ECS的彈性云服務(wù)器,要么是CCE的容器集群,我們現(xiàn)在已經(jīng)支持對(duì)CCE容器集群和彈性云服務(wù)器ECS(linux)進(jìn)行故障注入。

CPTS服務(wù)可以實(shí)現(xiàn)對(duì)應(yīng)用接口的壓測(cè),在故障注入的同時(shí)運(yùn)行,通過(guò)CPTS的報(bào)告用來(lái)評(píng)估故障對(duì)業(yè)務(wù)的影響。

AOM可以完成對(duì)容器、主機(jī)的資源監(jiān)控,以及自定義閾值告警,故障注入后相關(guān)的監(jiān)控?cái)?shù)據(jù)和告警數(shù)據(jù)會(huì)被寫入混沌工程測(cè)試任務(wù)的報(bào)告中,然后根據(jù)可靠性質(zhì)量評(píng)估方法實(shí)現(xiàn)自動(dòng)KPI度量,生成評(píng)估報(bào)告。

APM提供了調(diào)用鏈功能,在故障注入后,利用調(diào)用鏈可以快速完成問(wèn)題定位分析。

可靠性質(zhì)量評(píng)估方法上,我們采用的是基于可靠性關(guān)鍵質(zhì)量屬性的KPI評(píng)估方式,如下圖。從故障模式維度測(cè)試對(duì)象維度對(duì)KPI進(jìn)行分析,可以針對(duì)自己的服務(wù)特性,自主調(diào)整評(píng)估的參數(shù),然后生成測(cè)評(píng)報(bào)告。

評(píng)估屬性和方法

image.png
分享到

xiesc

相關(guān)推薦