2023閃存峰會主論壇上,綠算技術(shù)首席科學家、烽煙研究院院長孟坤分享了Diskless存算分離架構(gòu)的發(fā)展以及其如何助力加速AI模型訓(xùn)練。
綠算技術(shù)的產(chǎn)品主要特性是支持Diskless存算分離架構(gòu)的解決方案。事實上,我們身處各種信息技術(shù)加持的時代,給我們帶來了便利的同時,也面臨用戶更高的需求,因此,做產(chǎn)品務(wù)必圍繞應(yīng)用需求展開。當前信息應(yīng)用已進入AI時代、數(shù)據(jù)驅(qū)動時代,如何助力其發(fā)展是產(chǎn)品人應(yīng)擔負的時代責任。
那么避不開的是實現(xiàn)數(shù)據(jù)驅(qū)動計算,從應(yīng)用需求角度來看,好的技術(shù)務(wù)必能夠幫助用戶解決問題。當前,數(shù)據(jù)驅(qū)動智能已經(jīng)轉(zhuǎn)化為“計算”,依賴于數(shù)據(jù)、模型算法及計算基礎(chǔ)設(shè)施;其中,計算基礎(chǔ)設(shè)施包括運算資源(算)、存儲資源(存)、通信資源(運),三者需要相輔相成,相互協(xié)同才能更好地完成計算任務(wù),存儲在整個計算環(huán)境中的作用不容忽視。
針對現(xiàn)在大規(guī)模AI應(yīng)用的發(fā)展,對存儲的要求在全面提升,不論是空間上、性能上,還是使用模式上都存在著巨大挑戰(zhàn)。一方面,大規(guī)模數(shù)據(jù)需要大容量存儲空間,并行(集群)運算需要高效的數(shù)據(jù)存取和交互,重點體現(xiàn)在吞吐率、IO等服務(wù)能力上;另一方面,多樣化的計算任務(wù)要求所有資源都應(yīng)具備靈活的伸縮能力,具有靈活的可擴展性。在高速網(wǎng)絡(luò)支撐下,Diskless存算分離架構(gòu)具備了滿足上述需求的潛質(zhì),亟需支撐這些創(chuàng)新架構(gòu)的技術(shù)和實施方法。
Diskless存算分離架構(gòu)是什么?
Diskless就是存算分離架構(gòu),在高速網(wǎng)絡(luò)加持下,實現(xiàn)運算模塊和存儲模塊的解耦。在討論Diskless之前,有必要要談一下Serverless(去服務(wù)器),事實上就是云計算。它解決了用戶對計算資源所有權(quán)和使用權(quán)的解耦,用戶不用擔心設(shè)備購置負擔,可以通過按需購買服務(wù)的方式獲取所需計算資源,實現(xiàn)了“計算資源數(shù)據(jù)化”,便利了資源共享使用。
但是,云計算發(fā)展到現(xiàn)在,瓶頸也日益凸顯,主要體現(xiàn)為“服務(wù)質(zhì)量難以滿足和服務(wù)器CPU利用率不足”同時存在的現(xiàn)象,說明了利用服務(wù)器集群提供計算資源池的模式存在的管理和數(shù)據(jù)交互頻繁問題難以克服,亟需新的計算架構(gòu)。Diskless架構(gòu)旨在實現(xiàn)存算分離,進而實現(xiàn)各種計算資源的完美協(xié)同和靈活擴展,滿足用戶對性能及其它服務(wù)質(zhì)量提升的要求。而從傳統(tǒng)基于服務(wù)器集群到現(xiàn)在存算分離架構(gòu)的發(fā)展需求中,極速設(shè)備成為保證質(zhì)量的關(guān)鍵。綠算技術(shù)基于芯片級卸載RDMA/NVMe-oF的高速協(xié)議技術(shù)研發(fā)了網(wǎng)絡(luò)化極速存儲設(shè)備,提供了高性能、高擴展、網(wǎng)絡(luò)共享的數(shù)據(jù)存儲系統(tǒng),并在AI訓(xùn)練加速上做了一些實踐驗證。
在實踐方案中,綠算技術(shù)提供高速數(shù)據(jù)存儲系統(tǒng),聯(lián)合運算模塊合作伙伴——GPU廠商思騰合力,重點針對高?;蚩蒲性核谧龃竽P陀?xùn)練場景,搭建了微型存算分離架構(gòu)超算平臺。為科研實驗室,提供了一種開箱即用的AI訓(xùn)練平臺解決方案平臺,較好地適應(yīng)了用戶在設(shè)備空間,能源及運維能力相對受限的場景。
整體來看,方案直接簡單,上面是應(yīng)用層,通過虛擬化技術(shù)方便用于定制所需計算資源,中間是運算資源池,并通過高速網(wǎng)絡(luò)與下層的存儲資源池互聯(lián)互通。為滿足用戶差異化需求,存儲資源層又被分為兩層:存儲系統(tǒng)服務(wù)層和存儲空間資源池,存儲資源池集中式共享使用的模式進行服務(wù)。
在上述方案中,應(yīng)用了綠算技術(shù)的兩個核心產(chǎn)品,分別體現(xiàn)在軟件系統(tǒng)和硬件設(shè)備上。硬件是GP超100Gb的新型存儲服務(wù)器(EBOF),可以完全釋放數(shù)據(jù)存取能力,核心優(yōu)勢包含五個方面:(1)實現(xiàn)網(wǎng)絡(luò)高速通道的線速匹配,(2)高速存儲協(xié)議包的芯片級卸載,(3)適當冗余設(shè)計保障可靠性,(4)簡約模塊化實現(xiàn)降低功耗,(5)可視化配置監(jiān)管提升使用體驗。
硬件設(shè)備通過采用上述技術(shù),設(shè)備實測參數(shù)達到了2U設(shè)備可以提供到72GB/s的帶寬,單機的IOPS達到了1600萬,時延和功耗也體現(xiàn)了不俗性能。更重要地,GP設(shè)備是可以網(wǎng)絡(luò)擴展的,如果更高需求,可以簡單地通過網(wǎng)絡(luò)設(shè)備直接橫向擴展。此外,設(shè)備采用標準接口和協(xié)議,并提供多樣化的應(yīng)用模式,滿足用戶需求。
另一方面,綠算技術(shù)適應(yīng)GP設(shè)備基礎(chǔ)上還開發(fā)并行文件系統(tǒng)LinePillar FS,滿足了運算模塊對數(shù)據(jù)存儲的多樣化需求。主要優(yōu)勢體現(xiàn)為大流分級,小流的聚合方式保障性能;采用標準接口適配多種應(yīng)用系統(tǒng),此外,多個版本兼容了主流操作系統(tǒng)、處理芯片,能夠滿足用戶各種場景或現(xiàn)有IT資產(chǎn)利舊。
綠算分享兩個典型案例
基于上述Diskless超算平臺,綠算技術(shù)也開展兩個應(yīng)用場景測試,一個是大家常見的AI模型訓(xùn)練場景,這個場景是一個期貨公司做回測服務(wù),他們的數(shù)據(jù)量不大,但交互非常多。訓(xùn)練過程數(shù)據(jù)非常多,要求高頻讀寫,對IOPS有很高要求。之前他們采用服務(wù)器集群的方式進行模型訓(xùn)練,跑十年的期貨數(shù)據(jù)、兩百多個模型,往常出份報告需要大概跑一個月;采用上述解決方案后,出報告時間直接降到了八個小時,后來又在數(shù)據(jù)系統(tǒng)上做了一個調(diào)整,模型訓(xùn)練時間壓縮到三個小時。之后我們進行了分析總結(jié),發(fā)現(xiàn)訓(xùn)練時長的壓縮主要得益于數(shù)據(jù)交互模式的簡化和路程的降低。
第二個場景是AI驅(qū)動安全的一個場景,該場景需求是實現(xiàn)100Gb帶寬網(wǎng)絡(luò)流量的實時異常檢測。該任務(wù)的難點主要體現(xiàn)在兩個方面:(1)需要把流量完整存下來,(2)流量數(shù)據(jù)能夠高效的供訓(xùn)練模型存取。經(jīng)歷了高端服務(wù)器集群無法完成場景需求的情況下,采用Diskless超算平臺后,問題得到了很好的解決,實現(xiàn)了100Gb網(wǎng)絡(luò)流量的線速分析,滿足了大規(guī)模數(shù)據(jù)瞬間寫入和PB級海量數(shù)據(jù)秒級查詢需求。 事實上,分析發(fā)現(xiàn),成功實踐還主要得益于通過建立集中式高速數(shù)據(jù)共享資源池,減少了數(shù)據(jù)在服務(wù)器之間的橫向流動,使得各個運算節(jié)點的性能得以充分發(fā)揮。
最后
孟坤總結(jié)了Diskless架構(gòu)產(chǎn)品解決方案優(yōu)勢,并強調(diào)使用全閃存儲方案后,能耗、空間依賴、存儲密度等都具有明顯優(yōu)勢。展望未來,Diskless存算分離架構(gòu)方案在云數(shù)據(jù)中心的基礎(chǔ)設(shè)施改造中具有巨大優(yōu)勢,不僅體現(xiàn)在“碳達峰、碳中和”綠色數(shù)據(jù)中心建設(shè)方面,還體現(xiàn)在高性能、高性價比服務(wù)能力方面。