熊老師耕耘存儲20年,在騰訊云從事云存儲領(lǐng)域的高性能存儲以及與大模型融合創(chuàng)新方面的研究工作,致力于推動云技術(shù)和人工智能的創(chuàng)新與發(fā)展。
如何將存儲技術(shù)與人工智能、機(jī)器學(xué)習(xí)相結(jié)合,從數(shù)據(jù)存儲、處理到智能分析,揭示如何利用存儲技術(shù)為AI應(yīng)用提供高效、可擴(kuò)展的基礎(chǔ),熊老師在演講中提出了他的思考。
一、存儲技術(shù)與人工智能相結(jié)合:為AI應(yīng)用提供高效、可擴(kuò)展的數(shù)據(jù)存儲和處理基礎(chǔ)
面對當(dāng)前如此巨大的數(shù)據(jù)量,存儲產(chǎn)品和技術(shù)如何服務(wù)好我們的大模型?
以ChatGPT為中心,它的參數(shù)指數(shù)級發(fā)展,已經(jīng)接近甚至超越人腦神經(jīng)網(wǎng)絡(luò)數(shù)量。因此后臺對應(yīng)的算力有巨大的訴求,基本上百卡的雖然比較起步了,千卡和萬卡,最后我們會有一個巨大的成本的投入。
把整個流程站在業(yè)務(wù)角度我們可以打開來看,從開始的數(shù)據(jù)的注入,這個注入有很多模式,在大模型維度可能通過我們各種語料的注入,進(jìn)一步的話,我們做數(shù)據(jù)的預(yù)處理,這里有一些常見的批注,包括數(shù)據(jù)預(yù)想到的結(jié)構(gòu)化的處理。再進(jìn)一步我們對數(shù)據(jù)進(jìn)行訓(xùn)練,通常來說我們比較花錢地方,一輪跑下來比較花錢。
再接著進(jìn)行數(shù)據(jù)的訓(xùn)練和推理,推理過程中有對數(shù)據(jù)安全的檢測。整一套流程我們可以在存儲的維度提煉出幾個訴求,我們有統(tǒng)一的存儲模式,一個流程下來,你不需要經(jīng)過太多的不同的存儲的服務(wù)的供給,希望一套數(shù)據(jù)能夠進(jìn)行全流程處理。再接著,我們對數(shù)據(jù)處理邏輯有一個自身的檢測。在AIGC里面,內(nèi)容審核目前看尤為關(guān)鍵。
我們看到具體展開看有哪些訴求。一開始采集過程中,對于存儲來說使用訴求是比較互聯(lián)網(wǎng)化的,互聯(lián)網(wǎng)的服務(wù)希望是互聯(lián)網(wǎng)對象存儲的協(xié)議,數(shù)據(jù)量體量比較大。
第二個環(huán)節(jié)數(shù)據(jù)的預(yù)處理,整個環(huán)節(jié)訪問方式比較靈活,有我們常見大數(shù)據(jù)的,HDFS,還可以用文件的語義。整個處理模型的數(shù)據(jù)量在百TB級,順序以大帶寬的讀寫為主。
第三個變成兩個階段,訪問接口希望采用文件的語義,將存儲數(shù)據(jù)按照文件方式掛載,進(jìn)行讀取。有順序的讀也有隨機(jī)讀,以及前面專家講到實時的checkpoint寫,這是對存儲考驗?zāi)芰Φ牡胤健?/p>
我們知道整個GPU使用過程中,本身也有一定的不穩(wěn)定因素,會導(dǎo)致整個訓(xùn)練過程中斷,這是比較花錢的,我們最常見的處理方式是把過程寫入到存儲,一旦有中斷的時候存儲快速地回滾,將以前計算結(jié)果做了很好的保存。后面推理,推理的時候主體讀,讀的模型以POSIX語義為主,前面處理的模型的數(shù)據(jù)有一定的結(jié)構(gòu)化,后面對內(nèi)容進(jìn)行治理。
二、創(chuàng)新存儲解決方案:滿足大規(guī)模數(shù)據(jù)處理和AI應(yīng)用的需求,提供高性能、可靠性和可擴(kuò)展性
第二個階段,我按照存儲供給方式,第一個維度前面說是比較貴的,量化的數(shù)據(jù),我們拿著8核32G的節(jié)點,如果插入一張T4的顯卡,成本巨大提升,占比超過80%以上。第二,各種因素,原始產(chǎn)能因素,目前宏觀的因素,缺貨比較嚴(yán)重,后期會半年以上。所以整個因素會導(dǎo)致構(gòu)建模型的時候是以算力為中心,從我們客戶來講,哪個地方我在騰訊上,哪個地方有算力,趕緊構(gòu)建環(huán)境,希望數(shù)據(jù)快速地供給。
第二個存儲在過往這么多年經(jīng)驗,我們逐漸構(gòu)建以數(shù)據(jù)為中心的計算生態(tài),很天然,我們數(shù)據(jù)是有狀態(tài)的,你的計算可以就近調(diào)度到數(shù)據(jù)這邊來,它是無狀態(tài)隨時拉起。
隨著云上數(shù)據(jù)湖的構(gòu)建,會構(gòu)建更優(yōu)的數(shù)據(jù)為重要的技術(shù)平臺。隨著大模型的發(fā)展對訴求,進(jìn)一步加強(qiáng)。第一,我們看到可靠可用,對可用性有巨大要求,我希望寫入是可靠的。第二,合規(guī)有更高的要求。我們以前講的數(shù)據(jù)是核心資產(chǎn),到了大模型里面很多模型就是核心資產(chǎn)。花了那么多價錢算出這個模型,我們要做很好的保存和合規(guī)。
第三個隨意的訪問,這個非常重要,我們之前構(gòu)建數(shù)據(jù)湖的時候重要的優(yōu)勢是,一個能夠在云上隨時隨地注入數(shù)據(jù)的,像湖一樣,水從任何地方流入數(shù)據(jù)湖。第二,能容忍任何數(shù)據(jù)格式,通常來說,我不用管理你這個數(shù)據(jù)的模式,數(shù)據(jù)的格式,你可以讓它自然進(jìn)入到數(shù)據(jù)湖。
到了我們大模型時代,有進(jìn)一步地提升,數(shù)據(jù)在很多時候會出現(xiàn)很大,單體的文件可以想象到很多客戶單體文件可以到上百個TB。我們通常講大文件一般來講起步是兆,一兆以上是大文件,我們通常能看到一個G的文件也很大了,到了大模型時代,到了TB級,百TB的大模型。
第三個點低成本和擴(kuò)展能力,這個尤為關(guān)鍵,現(xiàn)在構(gòu)建的數(shù)據(jù)湖,我們希望擴(kuò)展性有極大的空間,這個空間沒有任何的限制,你可以輕易構(gòu)建EB級的數(shù)據(jù)湖存儲。
有了這兩個我們發(fā)現(xiàn)有一個小小的GAP,原來我們構(gòu)建以數(shù)據(jù)為中心的IT模型,有一個GPU為中心,以算力為中心,中間會有一些挑戰(zhàn),以客戶來說,數(shù)據(jù)構(gòu)建在騰訊云數(shù)據(jù)湖上,算力是動態(tài)的,也就是說有可能在北京的園區(qū),正好能拿到GPU卡,構(gòu)建大模型的計算,中間就有位置的不匹配。
還有數(shù)據(jù)湖的構(gòu)建是以大容量,海量擴(kuò)展為中心,對GPU來說,投喂數(shù)據(jù)的帶寬是巨大的,單獨構(gòu)建給指定的算力,而存儲數(shù)據(jù)中心以多租戶的方式構(gòu)建給云上的成千上萬的企業(yè)客戶。
技術(shù)維度,數(shù)據(jù)湖的構(gòu)建,是以云上可以隨時隨地訪問的對象存儲,是KV的方式,沒有目錄結(jié)構(gòu)的,而在以GPU算力為中心,我們剛剛有展示的以語意的方式。有一部分很兼容,投喂語料的時候用云原生的對向接口是可以的,一旦進(jìn)入到推理環(huán)節(jié)希望是充分的文件語意。
出現(xiàn)這樣一個GAP,我們怎么解決這個問題呢?
第一,我們構(gòu)建了一個數(shù)據(jù)加速器,它起的作用是數(shù)據(jù)還是在以對對象存儲為中心的數(shù)據(jù)湖里,原來數(shù)據(jù)湖的入湖和湖上各種應(yīng)用的構(gòu)建,特別最近流行的湖倉一體,這些分析都沒有任何變化。當(dāng)你需要構(gòu)建大模型的時候,剛才的例子,我在騰訊云的北京六區(qū),拿到GPU資源的時候,我需要做的事情非常簡單,我在騰訊六區(qū)構(gòu)建數(shù)據(jù)湖的加速器,加速器的存儲能力以單租戶的形式,跟我們私有化使用是完全一樣的體驗,這樣的話,我保證昂貴的GPU算力得到充分的存儲資源的供給,不要因為存儲資源任何的不給力或波動導(dǎo)致算力資源的浪費。
第二,供給過程中,我可以實時根據(jù)算力的變化,有可能同時在廣州的三區(qū),供給到另外一批GPU,隨時可以拉起數(shù)據(jù)加速器,實現(xiàn)存儲資源的供給,整個過程是云原生的方式,滿足以算力為中心的調(diào)度,哪里有算力,有GPU卡,哪里就能供給到數(shù)據(jù)加速器。
從存儲讀寫維度,GPU到加速器整個訪問路徑跟之前的GPU使用模式是一樣的,可以當(dāng)做一個并行的穩(wěn)定系統(tǒng)進(jìn)行使用,讀寫是實時高并發(fā)的。另外一個程度,我們的數(shù)據(jù)加速器和以對象存儲為中心的數(shù)據(jù)湖實現(xiàn)異步的數(shù)據(jù)流動,這樣可以將實時的checkpoint寫入,可以將它異步沉降到數(shù)據(jù)湖里面進(jìn)行長久的保存。同時,可以將其他地域模型結(jié)果加載到另外一個數(shù)據(jù)中心實現(xiàn)推理,這樣實現(xiàn)GPU資源合理的應(yīng)用以及整個云上資源全局的調(diào)度。
三、騰訊云實踐分享
騰訊云面向大模型提供了一站式、全流程以及端到端的解決方案,加速大模型訓(xùn)練效率,將數(shù)據(jù)和算力有效融合。
一站式是站在業(yè)務(wù)的數(shù)量上,每個環(huán)節(jié)都需要存儲的供給,都需要數(shù)據(jù)的處理,騰訊云提供一站式方案,從最初采集到最后整個訓(xùn)練完以后的推理和審核,整個方案以云原生的方式供給算力,按需進(jìn)行部署、訓(xùn)練和結(jié)果審核。
UGC的審核能力和解決方案,AIGC內(nèi)容可以被平滑地使用,可以對內(nèi)容進(jìn)行各種分類和批注,圍繞AIGC,將云的原生能力形成全鏈路方案的供給。
端到端,從計算,從IT全鏈路全棧,騰訊云提供了以對象存儲COS為底座的數(shù)據(jù)湖,再到加速層,構(gòu)成系列的數(shù)據(jù)加速器體系,到TACO面向GPU的加速的套件,以及面向大模型的加速的網(wǎng)絡(luò),這樣一個端到端的數(shù)據(jù)的大模型解決方案,可解決數(shù)據(jù)兼容原來的數(shù)據(jù)湖,適配算力按需的供給,高速供數(shù)據(jù)資源,滿足快速的訓(xùn)練和網(wǎng)絡(luò)的快速交換。
騰訊云數(shù)據(jù)加速器GooseFS通過全托管云服務(wù),可一鍵式購買發(fā)貨,省去部署、調(diào)測等運維工作;完全兼容 POSIX 文件語義,工作負(fù)載無需進(jìn)行任何改動;GooseFS按創(chuàng)建容量計費,按量付費、彈性擴(kuò)容,避免資源閑置;可自動批量部署客戶端軟件,將GooseFSx掛載到主機(jī)的本地目錄,簡單易用。
更多內(nèi)容,歡迎您參考閱讀原文中的專題視頻講解。