客戶需求多樣化
隨著客戶群體范圍不斷拓展,既有需要借助外部推理服務(wù)和應用使用AI的用戶,也有擁有自己AI團隊、用自有數(shù)據(jù)訓練大模型的大型企業(yè)。許多用戶利用天云融創(chuàng)軟件的SkyForm算力調(diào)度平臺管理GPU算例進行應用開發(fā),需要連接本地IDE與算力池中的資源;生物信息行業(yè)不僅需要GPU資源運行如AlphaFold這樣的AI應用,還需要CPU資源進行基因分析。算力的多樣性可以大大提高資源利用率,降低算力運營者的成本。
容器集群方案的局限性
由于大部分AI用戶習慣使用容器的方式進行模型訓練和推理,天云融創(chuàng)軟件起初也像其他算力運營平臺一樣,重點支持單個和多個容器組合的應用。然而,隨著客戶群體的擴大和應用形態(tài)及算力需求的多樣化,我們發(fā)現(xiàn)現(xiàn)有的容器集群方案存在許多局限性:
1.模型訓練中調(diào)整依賴組件:每次都需重新制作鏡像,對于需要頻繁調(diào)整庫和方法的開發(fā)人員來說,調(diào)試周期長,效率低。
2.多機訓練鏡像瓶頸:多機訓練時,從鏡像庫下拉鏡像效率低,啟動時間長,鏡像倉庫容易成為瓶頸。
3.GPU故障處理復雜:在大規(guī)模GPU集群中,故障處理復雜,需自動判斷和處理故障GPU,并重新調(diào)度任務(wù)。
4.復雜任務(wù)調(diào)度能力不足:AI和大數(shù)據(jù)任務(wù)需要高并發(fā)、低延遲的調(diào)度能力,Kubernetes缺乏復雜任務(wù)調(diào)度能力。
5.存算分離架構(gòu)延遲:Kubernetes的存算分離架構(gòu)增加了數(shù)據(jù)訪問延遲,影響計算效率,特別是在AI和大數(shù)據(jù)場景下。
6.本地IDE開發(fā)限制:許多開發(fā)者希望使用本地IDE(如VSCode),通過SSH遠程連接算力池開發(fā)模型和應用,現(xiàn)有方案需要提供復雜的網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能。
天云融創(chuàng)軟件的解決方案
基于上述問題,天云融創(chuàng)軟件開發(fā)了同時支持裸金屬(HPC)和容器應用的SkyForm算力調(diào)度系統(tǒng)。這一系統(tǒng)不僅能調(diào)度多容器應用,還能同時調(diào)度和運行裸金屬HPC應用。
在裸金屬上使用Conda建立個人的用戶空間,既能達到與容器類似的固化軟件組件和庫的功能,還能避免下拉容器鏡像的動作,將大型分布式模型的啟動時間從幾十分鐘縮短到十幾分鐘。
天云融創(chuàng)軟件的SkyForm調(diào)度器每15秒鐘監(jiān)視一次GPU的健康狀況,自動處理故障GPU,重新調(diào)度任務(wù),實現(xiàn)模型的斷點續(xù)訓或推理的自動恢復。
通過我們產(chǎn)品自帶的4層和7層網(wǎng)絡(luò)協(xié)議轉(zhuǎn)發(fā),用戶可以動態(tài)申請GPU資源,然后使用自己桌面上的VSCode,安裝遠程連接插件,通過SSH與分配的容器資源聯(lián)通,實現(xiàn)遠程開發(fā)功能。
最后
天云融創(chuàng)軟件的SkyForm算力調(diào)度管理平臺已經(jīng)在國內(nèi)多家智算/超算中心、多個行業(yè)領(lǐng)域部署應用,為AI訓練和推理提供安全可靠的算力服務(wù)。我們堅持裸金屬和容器混合算力調(diào)度和管理,以滿足多樣化的客戶需求,提高算力資源利用率,降低運營成本。