2015年創(chuàng)立的CNCF發(fā)布的開源平臺(tái)Kubernetes,讓云原生技術(shù)得到長足發(fā)展,越來越多的行業(yè)、場(chǎng)景采用云原生技術(shù),企業(yè)和個(gè)人開發(fā)者4年增長了近20倍,來自超過2k個(gè)公司的3.5萬多個(gè)開發(fā)者向開源社區(qū)貢獻(xiàn)了14萬余行代碼。
今天,在5G、AI &大數(shù)據(jù)應(yīng)用日漸普及的背景下,為適應(yīng)多云混合云、智能計(jì)算、邊緣計(jì)算、異構(gòu)計(jì)算等計(jì)算環(huán)境,云原生正在迎來新的進(jìn)化。
在華為開發(fā)者大會(huì)2020(Cloud)期間,來自華為云、才云科技、中國聯(lián)通的技術(shù)專家,帶來了云原生技術(shù)的最新發(fā)展成果和趨勢(shì)走向。
Kubeflow + Volcano 加速機(jī)器學(xué)習(xí)平臺(tái)容器化進(jìn)程
近10年來,AI發(fā)展迅速。在AI訓(xùn)練過程中,涉及到硬件、操作系統(tǒng)、驅(qū)動(dòng)、編程語言和運(yùn)行時(shí)、存儲(chǔ)和數(shù)據(jù)庫、框架、上層應(yīng)用預(yù)算法等多層技術(shù)堆棧,應(yīng)用K8s,則能讓用戶屏蔽編程語言以下的所有堆棧,更多關(guān)注上層技術(shù)實(shí)現(xiàn)。
K8s長于任務(wù)調(diào)度,在分布式AI訓(xùn)練過程中,能把訓(xùn)練任務(wù)分布到不同的集群上執(zhí)行。但K8s默認(rèn)的調(diào)度器存在諸多問題,如:
?資源的爭(zhēng)搶問題
?Head-of-Line Blocking問題
?優(yōu)先級(jí)問題
?部分任務(wù)的親和性問題
?PS Worker 的帶寬很大程度上影響訓(xùn)練問題
?拓?fù)鋯栴}
另一方面,隨著AI應(yīng)用需求的增加,人們開始考慮如何進(jìn)一步簡化上層的存儲(chǔ)、框架技術(shù)堆棧,讓AI訓(xùn)練更加容易,Kubeflow應(yīng)運(yùn)而生。
Kubeflow定位于K8s平臺(tái)上ML工作負(fù)載管理工具,如數(shù)據(jù)存儲(chǔ)、框架選擇均能通過Kubeflow獲得管理,實(shí)現(xiàn)分布式訓(xùn)練、分布式實(shí)驗(yàn)、分布式服務(wù)、管道服務(wù)等功能,進(jìn)一步簡化堆棧。
使用Kubeflow,流程更加清晰簡單,用戶只要關(guān)心業(yè)務(wù)邏輯、算法、模型代碼的開發(fā),就能完成從模型訓(xùn)練到模型發(fā)布一整套流程,不必關(guān)注底層。
Volcano是在Kubernetes 上針對(duì)大數(shù)據(jù)、深度學(xué)習(xí)等場(chǎng)景設(shè)計(jì)的調(diào)度系統(tǒng),能夠解決部分分布式訓(xùn)練任務(wù)調(diào)度的痛點(diǎn)問題。Volcano基于K8s,具有高擴(kuò)展性,且容易學(xué)習(xí)上手。
才云科技機(jī)器學(xué)習(xí)平臺(tái)工程師、Kubeflow開源社區(qū)維護(hù)者高策介紹,分布式AI訓(xùn)練任務(wù)的資源爭(zhēng)搶成本極高,等待時(shí)間長達(dá)10秒級(jí),采用Volcano PS-Worker 親和性調(diào)度之后, PS和Worker之間的通信速度變快,任務(wù)執(zhí)行效率提高,等待時(shí)間有大幅度下降。
高策分析這一顯著提高來自兩個(gè)方面原因:一方面任務(wù)執(zhí)行時(shí)間縮短,資源很快被釋放,其他任務(wù)獲得資源的等待時(shí)間變少;另一方面與默認(rèn)調(diào)度器比較,Volcano解決了資源爭(zhēng)搶問題,不會(huì)再發(fā)生任務(wù)無謂等待甚至鎖死的情況。
基于 KubeEdge 的邊緣計(jì)算平臺(tái)幫助客戶降本增效
隨著5G通信的商用,萬物互聯(lián)時(shí)代快速到來,網(wǎng)絡(luò)邊緣的設(shè)備數(shù)量、產(chǎn)生的數(shù)據(jù)爆發(fā)增長,集中式的數(shù)據(jù)中心(包括公有云服務(wù))將面臨實(shí)時(shí)性、帶寬、能耗、數(shù)據(jù)隱私的挑戰(zhàn),越來越多的場(chǎng)景需要應(yīng)用邊緣計(jì)算。
在K8s上,可以通過K3s、Microk8s、KubeEdge三種架構(gòu)實(shí)現(xiàn)邊緣計(jì)算,KubeEdge以云邊協(xié)同、邊緣側(cè)的輕量和邊緣自治能力而獲得更多應(yīng)用。
聯(lián)通云計(jì)算有限公司容器團(tuán)隊(duì)負(fù)責(zé)人、KubeEdge開源社區(qū)Approver張杰,負(fù)責(zé)在聯(lián)通云的容器和KubeEdge落地工作,他介紹了一個(gè)汽車保養(yǎng)門店車位績效AI識(shí)別的典型應(yīng)用案例:
客戶是一家汽車保養(yǎng)連鎖機(jī)構(gòu),每個(gè)門店都有多個(gè)保養(yǎng)車位,每個(gè)車位都需要記錄車輛維護(hù)數(shù)量、時(shí)間,以評(píng)估每工位、每門店的業(yè)務(wù)績效。如果采用通常做法,額外購置智能攝像頭或者使用云識(shí)別服務(wù)的話,成本會(huì)非常高昂。
聯(lián)通云計(jì)算通過KubeEdge部署的邊緣計(jì)算系統(tǒng),采用工位攝像頭來抓取車輛進(jìn)出的照片,實(shí)時(shí)識(shí)別車輛信息、計(jì)算車輛停留保養(yǎng)時(shí)間,實(shí)現(xiàn)全天統(tǒng)計(jì)無遺漏,最后匯總報(bào)表推送至云端的運(yùn)營中心,實(shí)現(xiàn)門店乃至車位的業(yè)績效率統(tǒng)計(jì)、實(shí)現(xiàn)KPI考核,以及門店地域的汽車維修熱點(diǎn)統(tǒng)計(jì)分析,實(shí)現(xiàn)門店資源的全局調(diào)度等功能。
這一邊緣計(jì)算方案,繼續(xù)采用原有系統(tǒng)的IP攝像頭,不需額外購置智能攝像頭,只需一次性投入,運(yùn)營過程中每次識(shí)別幾乎不產(chǎn)生使用費(fèi)用,很好地保護(hù)了客戶投資。
這是一個(gè)典型的云端向云邊端遷移的過程中,聯(lián)通云在邊緣側(cè)加入幾臺(tái)arm 服務(wù)器,實(shí)現(xiàn)就近計(jì)算,只上報(bào)統(tǒng)計(jì)結(jié)果,即解決了延遲問題,又提高了敏感數(shù)據(jù)的安全性問題。
系統(tǒng)改造后,在云端會(huì)有應(yīng)用服務(wù)的管理平臺(tái)以及業(yè)務(wù)的運(yùn)營平臺(tái)??刂茖用嬗蒶8s master和kubeedge的cloudcore管理。每個(gè)線下門店的ARM服務(wù)器上都安裝kubeedge的邊端組件:mqtt、edgecore服務(wù)等,管理pod的生命周期以及對(duì)應(yīng)的終端管理。
所有的應(yīng)用都經(jīng)過容器化改造,使用KubeEdge統(tǒng)一管理和下發(fā)。使用KubeEdge本身提供的能力,既能最大化發(fā)揮容器的快速部署的優(yōu)勢(shì),也能實(shí)現(xiàn)云邊協(xié)同和邊緣自治的能力。很好的滿足了客戶對(duì)于運(yùn)維和運(yùn)營的需求。
借助邊緣計(jì)算系統(tǒng),單張圖片識(shí)別時(shí)間開銷 < 50ms,且在網(wǎng)絡(luò)質(zhì)量不佳時(shí),也可以離線使用。同時(shí),利用IoT感知技術(shù),可以實(shí)時(shí)監(jiān)控輪胎等可燃物料存儲(chǔ)區(qū)域的溫度狀態(tài),如果店面出現(xiàn)明火及煙霧時(shí),會(huì)及時(shí)推送報(bào)警短視頻到門店管理人員及運(yùn)營平臺(tái),達(dá)到自動(dòng)報(bào)警的目的。
火了這么久,2020年云原生將走向哪里?
王澤鋒是華為云云原生開源負(fù)責(zé)人、KubeEdge項(xiàng)目聯(lián)合創(chuàng)始人,他是國內(nèi)最早的一批K8s Maintainer,是KubeEdge項(xiàng)目和Volcano項(xiàng)目開源的主導(dǎo)者。
王澤鋒預(yù)測(cè)了2020年云原生在企業(yè)落地的3大趨勢(shì),他認(rèn)為:更多企業(yè)采用多云混合云,以避免廠商綁定;更多的AI &大數(shù)據(jù)應(yīng)用開始云原生開發(fā);5G + AI +邊緣將成為云原生向外延伸的新機(jī)遇。
近年來K8s在中國的發(fā)展迅速,5G、AI、邊緣計(jì)算正在創(chuàng)造新體驗(yàn)、新應(yīng)用、新產(chǎn)業(yè),促進(jìn)智能在諸多行業(yè)的普及和應(yīng)用。KubeEdge和Volcano正是在這個(gè)過程中創(chuàng)立,并在應(yīng)用實(shí)踐過程中,逐漸得到完善。
邊緣計(jì)算具有連接的廣泛性、數(shù)據(jù)帶寬優(yōu)化、邊緣的自治性、業(yè)務(wù)的實(shí)時(shí)性、安全與隱私保護(hù)等優(yōu)勢(shì)。但在落地實(shí)現(xiàn)中,每個(gè)應(yīng)用場(chǎng)景的具體設(shè)備、網(wǎng)絡(luò)通信等條件都不盡相同,需要面對(duì)資源有限、網(wǎng)絡(luò)不暢、離線自治、設(shè)備接入和管理等現(xiàn)實(shí)問題。
KubeEdge是K8s上更好地實(shí)現(xiàn)邊緣計(jì)算的工具,針對(duì)邊緣側(cè)的實(shí)際環(huán)境做了諸多優(yōu)化:實(shí)現(xiàn)了邊緣側(cè)節(jié)點(diǎn)的離線狀態(tài)自治;云邊消息傳輸默認(rèn)使用websocket,支持云邊協(xié)同;同時(shí)支持云端集群和邊緣端集群的管理;在邊緣側(cè)節(jié)點(diǎn)Edgecore 的內(nèi)存暫用率大約是70M,極致輕量;同時(shí)兼容k8s 的核心api功能等等。
KubeEdge由華為開源并于2019年3月捐給CNCF基金會(huì),是K8s IoT Edge Working Group 的關(guān)鍵參考架構(gòu)之一,目前有超過250位貢獻(xiàn)者參與維護(hù)。
以KubeEdge為核心構(gòu)建的華為云智能邊緣平臺(tái),具有大規(guī)模、輕量化、邊緣智能、超強(qiáng)算力等特點(diǎn)。平臺(tái)支持十萬節(jié)點(diǎn)、百萬應(yīng)用,云端統(tǒng)一管理、配置、升級(jí);資源占用小于128mb,支持輕量化容器和函數(shù)管理;集成40+ AI算法,邊緣流計(jì)算以及時(shí)序型數(shù)據(jù)庫;支持華為鯤鵬/華為昇騰算力調(diào)度,邊緣AI推理算力提高3倍。
AI&大數(shù)據(jù)近年來成為新的熱點(diǎn),云原生能帶來諸多好處:實(shí)現(xiàn)自動(dòng)化、標(biāo)準(zhǔn)化、易擴(kuò)展;支持異構(gòu)硬件,降低復(fù)雜度;提高利用率和性價(jià)比等等。
但AI&大數(shù)據(jù)的云原生技術(shù)還不完善,目前主要解決了各個(gè)計(jì)算框架容器化的問題,仍有許多能力需要完善,如:改善資源分配的孤立性,避免作業(yè)死鎖;針對(duì)資源的拓?fù)鋬?yōu)化;作業(yè)任務(wù)間的依賴關(guān)系支持。
Volcano開源項(xiàng)目基于K8s構(gòu)建Batch系統(tǒng),提供針對(duì)AI大數(shù)據(jù)的復(fù)雜作業(yè)管理和高級(jí)調(diào)度能力。
Volcano項(xiàng)目基于華為云容器平臺(tái)大規(guī)模高性能計(jì)算應(yīng)用管理的最佳實(shí)踐,在原生 K8s 的基礎(chǔ)上,補(bǔ)齊了作業(yè) (Job) 調(diào)度和設(shè)備管理等多方面的短板。目前,Volcano 在華為云上對(duì)接了包括一站式 AI 開發(fā)平臺(tái) ModelArts、云容器實(shí)例 CCI、云容器引擎 CCE 在內(nèi)的多款服務(wù),是整個(gè)高性能計(jì)算領(lǐng)域不可或缺的基座。自開源以來,項(xiàng)目已經(jīng)吸引了來自騰訊,百度,快手以及 AWS 等多個(gè)公司的貢獻(xiàn)者。
云原生代表了新一代的技術(shù)方向,其在中國的發(fā)展如火如荼,CNCF的會(huì)員數(shù)量從2015年只有華為1家初創(chuàng)&白金會(huì)員,到今天已經(jīng)發(fā)展到50家。全球1/4認(rèn)證的K8s服務(wù)提供商來自中國;全球1/3的K8s培訓(xùn)發(fā)生在中國。
在云原生熱度持續(xù)上升的過程中,其生態(tài)獲得發(fā)展,超過90個(gè)廠商提供了認(rèn)證的K8s的云服務(wù)或者發(fā)行版,Kubernetes的南向有多種運(yùn)行時(shí)、存儲(chǔ)、網(wǎng)絡(luò)等插件供用戶選擇,北向的應(yīng)用管理和數(shù)據(jù)服務(wù)生態(tài)也持續(xù)豐富——業(yè)界主流的CICD工具鏈、數(shù)據(jù)庫、消息中間件等都支持對(duì)接K8s或直接在K8s上運(yùn)行。
2020年已經(jīng)過去四分之一,云原生在多云混合云,邊緣計(jì)算,智能計(jì)算等領(lǐng)域的強(qiáng)勁發(fā)展勢(shì)頭,值得所有開發(fā)者關(guān)注。
_____END_____