在替代產(chǎn)品出現(xiàn)之前,業(yè)界有兩種思路解決此問(wèn)題,一是重提NVDIMM(非易失內(nèi)存模組)的路線,二是回歸DRAM+SSD并重新設(shè)計(jì)軟硬件架構(gòu),兩者都非一蹴而就的簡(jiǎn)單工作。從硬件上看,NVDIMM-P/NVDIMM-H 都屬于SCM,傲騰和NVDIMM-P設(shè)計(jì)也有相似之處,應(yīng)該有所參照。但NVDIMM使用了DRAM,導(dǎo)致成本高昂,產(chǎn)品競(jìng)爭(zhēng)力上有先天短板。其次如果回歸DRAM+SSD方案,緩存機(jī)制和數(shù)據(jù)不丟失方案都需要重構(gòu),需要承擔(dān)時(shí)間和產(chǎn)品成熟度風(fēng)險(xiǎn)。

3.存算一體

嚴(yán)格來(lái)說(shuō),存算一體技術(shù)所依賴的可編程SSD不能歸類到介質(zhì),但可以認(rèn)為和介質(zhì)綁定非常緊密。最近這幾年,兩種有趣的相反思路都同時(shí)存在:首先,存算一體/可計(jì)算存儲(chǔ)/可編程SSD,都是“ offload”思路:把原本由主機(jī)側(cè)負(fù)責(zé)的部分?jǐn)?shù)據(jù)處理的計(jì)算負(fù)載主動(dòng)卸載到存儲(chǔ)端(包括智能網(wǎng)卡也都是如此),通過(guò)在靠近存儲(chǔ)介質(zhì)的地方加個(gè)ARM CPU或者干脆是FPGA來(lái)提供計(jì)算能力,也就是所謂的讓計(jì)算靠近數(shù)據(jù)。它能完成的計(jì)算包括數(shù)據(jù)壓縮,視頻編解碼,加解密等等IO密集型應(yīng)用所需功能,目前在這個(gè)方向有很多參與者,是一個(gè)熱點(diǎn)。

另一種思路是把本來(lái)緊密集成在SSD介質(zhì)側(cè)的管控能力提到主機(jī)側(cè)來(lái)處理,例子就是前兩年業(yè)界廣泛討論的open channel SSD。原本是固化到FLASH主控芯片的功能,開(kāi)放接口給主機(jī)側(cè),讓主機(jī)側(cè)根據(jù)自身應(yīng)用負(fù)載特點(diǎn),通過(guò)軟件算法調(diào)整實(shí)現(xiàn)優(yōu)化。實(shí)質(zhì)上是把存儲(chǔ)固件FTL的工作提到上層來(lái)完成,這樣系統(tǒng)能夠了解底層的情況,可以做文件系統(tǒng)軟件和介質(zhì)硬件的協(xié)同設(shè)計(jì),用各種辦法提高性能。這和前一種Offload思路形成了有趣的對(duì)照。

4.DNA存儲(chǔ)個(gè)人興趣而言,我覺(jué)得真正有意思的介質(zhì)是DNA存儲(chǔ),它屬于生物技術(shù)與信息技術(shù)的跨學(xué)科結(jié)合,BT+IT。迄今為止,所有的電子信息技術(shù)和產(chǎn)業(yè)都是基于物理學(xué),能帶理論催生了半導(dǎo)體的發(fā)現(xiàn)。而DNA的堿基對(duì)序列能夠儲(chǔ)存遺傳信息則是生物學(xué)的范疇,完全不同的學(xué)科。高中生物已經(jīng)教過(guò)DNA的雙螺旋結(jié)構(gòu)和ATCG四種嘌呤和嘧啶,用ACTG 分別代表二進(jìn)制數(shù)據(jù)00 01 10 11,就能夠?qū)崿F(xiàn)數(shù)據(jù)的存儲(chǔ),DNA編碼合成技術(shù)能實(shí)現(xiàn)數(shù)據(jù)寫入,而DNA測(cè)序技術(shù)就能實(shí)現(xiàn)數(shù)據(jù)的讀取。

DNA存儲(chǔ)有幾個(gè)突出特點(diǎn),首先是存儲(chǔ)密度大,單位體積能夠存儲(chǔ)的數(shù)據(jù)量比閃存大三個(gè)數(shù)量級(jí)(1000倍)。MIT的生物工程學(xué)教授Mark Bathe有一個(gè)著名觀點(diǎn),“The world in a mug”:使用DNA存儲(chǔ)技術(shù),一個(gè)咖啡杯就可以放得下全世界175ZB的數(shù)據(jù)。

其次是保存時(shí)間長(zhǎng)和保存成本低,磁盤和閃存的有限保存時(shí)間通常是十年或幾十年以內(nèi),但DNA存儲(chǔ)的保存時(shí)間至少是百年以上,如果保存得當(dāng),千年和萬(wàn)年也是有可能的,畢竟從萬(wàn)年前的琥珀里提取飛蟲基因的故事大家也都聽(tīng)過(guò)了,更夸張的是Nature上的一篇論文提到能提取凍土中120萬(wàn)年猛犸象的遺傳物質(zhì)并對(duì)其DNA進(jìn)行了解析。

但是DNA存儲(chǔ)最大的問(wèn)題是讀速度慢和寫成本高,合成1MB數(shù)據(jù)的成本可能超過(guò)10萬(wàn)美元;而高速測(cè)序技術(shù)雖然也叫高速,但和存儲(chǔ)行業(yè)的高速不可同日而語(yǔ)。

DNA存儲(chǔ)的整體研究最近兩年有些進(jìn)展,但還未產(chǎn)生重大突破,21年底22年初,微軟+華盛頓大學(xué)發(fā)了新論文,實(shí)現(xiàn)并發(fā)讀寫方法;東南大學(xué)使用電化學(xué)方法加速合成(寫)和測(cè)序(讀);22年9月,天津大學(xué)團(tuán)隊(duì)用BT+IT的完美結(jié)合,解決了常溫保存后DNA斷裂錯(cuò)誤問(wèn)題。利用生物科學(xué)的序列重建算法和信息存儲(chǔ)技術(shù)的噴泉碼(糾刪碼的一種),事先存儲(chǔ)于DNA中的敦煌壁畫得到了完美數(shù)據(jù)恢復(fù)。他們之前還利用酵母繁殖實(shí)現(xiàn)數(shù)據(jù)生物復(fù)制,非常有意思。

另外,國(guó)外微軟西數(shù)牽頭的DNA數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)聯(lián)盟去年發(fā)布了白皮書;國(guó)內(nèi)華大基因和中科院深圳先進(jìn)技術(shù)研究院等聯(lián)合一些單位在22年7月份發(fā)布了《DNA存儲(chǔ)藍(lán)皮書》也提出組建 DNA數(shù)據(jù)存儲(chǔ)產(chǎn)學(xué)聯(lián)盟。

5. 存儲(chǔ)極致高性能

極致高性能的獲得不是一件容易的事,它關(guān)系到整個(gè)數(shù)據(jù)鏈路的所有環(huán)節(jié),介質(zhì)、接口、協(xié)議、各層級(jí)的緩存機(jī)制設(shè)計(jì)和彼此配合都有關(guān)系,僅在一兩個(gè)環(huán)節(jié)做局部升級(jí)和優(yōu)化,有時(shí)候并不能獲得如預(yù)期般的理想結(jié)果,性能瓶頸永遠(yuǎn)是一個(gè)狡猾的動(dòng)態(tài)漂移者,需要全局視野和細(xì)致實(shí)踐才能有所掌握。

衡量存儲(chǔ)性能無(wú)非是帶寬,IOps和時(shí)延,以及性能的穩(wěn)定輸出范圍QoS,峰值再高,忽上忽下的性能表現(xiàn)肯定也是無(wú)法接受的。

從介質(zhì)上看,F(xiàn)lash,SCM, DRAM都可能出現(xiàn)在數(shù)據(jù)路徑上,搭配相應(yīng)的緩存機(jī)制來(lái)提高性能絕對(duì)值,從接口上看,過(guò)去的PCIe4.0時(shí)代,M.2 和U.2使用PCIex4,順序讀帶寬可以達(dá)到7GBps以上,而4k IOPS可以到100~160萬(wàn);(另外插卡式的存儲(chǔ)直接使用PCIe接口,支持X8和X16,理論帶寬能超過(guò)20GBp)?,F(xiàn)在的PCIe5.0時(shí)代,新接口E1.S/E1.L和E3.S/E3.L不僅帶來(lái)容量的提升,更因?yàn)橹С諴CIe5.0 X8和X16,能夠獲得翻倍的帶寬性能;而未來(lái)PCIe6.0到來(lái)時(shí),由于通道帶寬再次翻倍到128GBps,新接口應(yīng)該需要更多考慮如何發(fā)揮出這一前所未有的通道性能。

至于協(xié)議方面,NVMe協(xié)議已經(jīng)被廣泛采用,NVMe-oF中的NVMe/RDMA(IB)對(duì)極致性能的達(dá)成有一定研究?jī)r(jià)值,而RoCE協(xié)議可能在時(shí)延上有較難克服的問(wèn)題,更適合向下走性價(jià)比方案路線。近期業(yè)界真正廣泛關(guān)注的可能是CXL3.0協(xié)議,通過(guò)cxl.io cxl.mem cxl.cache三個(gè)子協(xié)議模塊,它實(shí)現(xiàn)了主機(jī)直接訪問(wèn)外設(shè)內(nèi)存和外設(shè)直接訪問(wèn)主機(jī)內(nèi)存的雙向訪問(wèn)和系統(tǒng)內(nèi)存擴(kuò)展,同時(shí)提供了內(nèi)存級(jí)的互聯(lián)能力。在2023年8月美國(guó)閃存峰會(huì)(FMS)上,一家韓國(guó)廠商利CXL池化內(nèi)存,展現(xiàn)了3.32倍優(yōu)于傳統(tǒng)RDMA方案的應(yīng)用性能。在存儲(chǔ)極致性能的研究方面,CXL是一個(gè)非常值得關(guān)注的協(xié)議。

然我們分開(kāi)討論了介質(zhì),接口,協(xié)議的新發(fā)展,但要實(shí)現(xiàn)存儲(chǔ)系統(tǒng)的極致高性能,必須統(tǒng)一起來(lái)考慮,摸索高速網(wǎng)絡(luò)和新介質(zhì)新協(xié)議的協(xié)同設(shè)計(jì),在每一個(gè)具體系統(tǒng)中實(shí)現(xiàn)各層級(jí)的匹配,才能充分發(fā)揮出性能潛力。

6. 分布式在做什么?

分布式存儲(chǔ)一直是我長(zhǎng)期關(guān)注和研究的方向,近兩年分布式全閃和和全介質(zhì)覆蓋的高端分布式存儲(chǔ)呈現(xiàn)出非常明顯上升勢(shì)頭,在數(shù)據(jù)中心級(jí)別和高性能計(jì)算應(yīng)用中有很好的表現(xiàn),高性能海量小文件和混合數(shù)據(jù)的需求都兼有出現(xiàn),同時(shí),還看見(jiàn)一些集中式存儲(chǔ)的高級(jí)功能例如重刪也有對(duì)應(yīng)“分布式重刪”的實(shí)現(xiàn)。一些面向行業(yè)如金融的分布式索引和檢索的增強(qiáng)特色功能也被引入。

今年我還注意到在底層數(shù)據(jù)的容錯(cuò)技術(shù)中,LDPC – 前向糾錯(cuò)碼( Error  Correcting Code)的出現(xiàn),它原本主要用于通信、視頻音頻編碼中,相比已經(jīng)熟悉的EC糾刪碼典型的Reed-Solomon編碼,LDPC帶來(lái)了更好的編解碼性能。主要原因是核心編解碼算法中采用稀疏編碼矩陣,僅使用異或操作,以微小的解碼失效可能性換得編解碼時(shí)間的降低,是一個(gè)大膽的技術(shù)選擇。

另外,分布式融合存儲(chǔ)的概念也在今年正式推出,也有的廠商叫分布式智能融合存儲(chǔ),“融合”這個(gè)詞又一次出現(xiàn)在分布式存儲(chǔ)產(chǎn)品中。定義上,主要是有三點(diǎn),介質(zhì)融合通過(guò)預(yù)設(shè)的可擴(kuò)展分級(jí)存儲(chǔ)機(jī)制,支持已有和未來(lái)各類介質(zhì),從HDD到SCM;廣泛支持各種存儲(chǔ)協(xié)議和大數(shù)據(jù)協(xié)議實(shí)現(xiàn)存儲(chǔ)服務(wù)的融合;通過(guò)多協(xié)議互通技術(shù)和數(shù)底層據(jù)統(tǒng)一管理技術(shù)實(shí)現(xiàn)數(shù)據(jù)融合,不同的應(yīng)用通過(guò)不同的協(xié)議可以訪問(wèn)同一份數(shù)據(jù),真正實(shí)現(xiàn)統(tǒng)一資源池。服務(wù)融合、數(shù)據(jù)融合加介質(zhì)融合形成了分布式融合存儲(chǔ),是一個(gè)值得關(guān)注的產(chǎn)品理念,里面更多的還是產(chǎn)品化和工程化的挑戰(zhàn)。

談完存儲(chǔ),我們?cè)倏纯碅I和存儲(chǔ)的碰撞。

7. 大模型的基礎(chǔ)設(shè)施需求

對(duì)存儲(chǔ)系統(tǒng)來(lái)說(shuō),生成式AI也是一種應(yīng)用,那么弄清楚大模型這類應(yīng)用機(jī)制和真正的需求是非常重要的。

目前這個(gè)階段,大模型真正的剛需是什么?毫無(wú)疑問(wèn),所有的競(jìng)爭(zhēng)者都在盯一件事,如何能夠盡快完成GPU集群的組建部署。如我們?cè)谇拔乃治觯捎诋a(chǎn)能,政策等原因,NVidia最適合大模型應(yīng)用的高端產(chǎn)品H100和A100出現(xiàn)了市場(chǎng)短缺和購(gòu)買困難。AI大模型的算力需求增長(zhǎng)達(dá)到了每?jī)扇齻€(gè)月翻一倍的程度,阿里云的一位架構(gòu)師給出每?jī)赡?75倍的估算。面對(duì)如此旺盛的需求,NVidia的股價(jià)也突破500美元?jiǎng)?chuàng)了新高。除了購(gòu)買,集群的使用成本也不低,都以小時(shí)計(jì);對(duì)于如此寶貴的計(jì)算資源,盡量提高利用率是第一考慮因素,業(yè)界的頭部參與者都在算法上想了不少辦法,譬如提高計(jì)算并行度,避免bubble帶來(lái)的GPU空轉(zhuǎn)現(xiàn)象等。

無(wú)米之炊難為,對(duì)于大模型來(lái)說(shuō),算力是第一優(yōu)先級(jí),其次是超高速網(wǎng)絡(luò);因?yàn)楸举|(zhì)上,當(dāng)前的生成式AI是一個(gè)非常典型的計(jì)算密集型應(yīng)用,這和傳統(tǒng)的科學(xué)計(jì)算及高性能計(jì)算(HPC)非常相似。按照之前的HPC經(jīng)驗(yàn),搭建這樣的IT基礎(chǔ)設(shè)施,算力和高速網(wǎng)絡(luò)是最需要解決也最麻煩的問(wèn)題,我們發(fā)現(xiàn)在大模型應(yīng)用里同樣如此,9成的精力和預(yù)算都用于解決以上兩個(gè)問(wèn)題,上萬(wàn)張H100/A100卡如何用IB網(wǎng)實(shí)現(xiàn)高速互聯(lián),是非常頭疼的問(wèn)題。

同時(shí),由于前文所述的“寬度計(jì)算”架構(gòu),事實(shí)上內(nèi)存也成為函待解決的高優(yōu)先級(jí)問(wèn)題。Transform架構(gòu)的萬(wàn)億參數(shù),梯度都需要放在最快的介質(zhì)里,利用HBM(高帶寬內(nèi)存)來(lái)構(gòu)建的緩存(顯存)顯然是不夠的,因此業(yè)界對(duì)于GPU的帶外緩存技術(shù)也已經(jīng)推進(jìn)一段時(shí)間,如果按照速度和時(shí)延的優(yōu)先級(jí)排序,緩存->DRAM->NVMe外設(shè)來(lái)看,AI業(yè)界最頭部的一批參與者的關(guān)注點(diǎn)還集中在前兩級(jí),存儲(chǔ)的關(guān)注優(yōu)先級(jí)明顯不太高。

最后,即使這一系列基礎(chǔ)設(shè)施的供應(yīng)和技術(shù)問(wèn)題都已經(jīng)解決,找到合適的數(shù)據(jù)中心資源進(jìn)行部署也不是太容易的事情,GPU的能耗遠(yuǎn)大于CPU,例如Dell、H3C的AI服務(wù)器都已經(jīng)采用2400W甚至是3000W的電源,功耗遠(yuǎn)大于普通服務(wù)器,現(xiàn)在市場(chǎng)上大量的IDC還有不少說(shuō)標(biāo)準(zhǔn)4KW機(jī)柜,即使是6KW機(jī)柜也很難滿足AI基礎(chǔ)設(shè)施部署的要求,這也是要面對(duì)的實(shí)際問(wèn)題。

8. 大模型的數(shù)據(jù)量和存儲(chǔ)需求

真實(shí)的大模型訓(xùn)練數(shù)據(jù)量其實(shí)并不驚人,從GPT的5GB到GPT3的570GB訓(xùn)練數(shù)據(jù),總量都在一個(gè)不大的范圍。公開(kāi)資料顯示,浪潮的源1.0大模型收集了幾乎整個(gè)中文互聯(lián)網(wǎng)的數(shù)據(jù)集用于訓(xùn)練,總數(shù)據(jù)量也不過(guò)在5TB上下;如果按照7月份GPT-4的最新分析材料透露,使用了13萬(wàn)億個(gè)token進(jìn)行訓(xùn)練,以每token4字節(jié)計(jì)算,整個(gè)訓(xùn)練數(shù)據(jù)集也不過(guò)是53TB左右。對(duì)于如今的存儲(chǔ)行業(yè)來(lái)說(shuō),53TB真的不算一個(gè)巨大的容量需求,一臺(tái)高端全閃存儲(chǔ)設(shè)備通常就可以提供50~100TB的容量空間,混閃和中端存儲(chǔ)能夠提供的容量就更大,數(shù)量級(jí)的差別。

然而,在開(kāi)始訓(xùn)練之前,數(shù)據(jù)集需要經(jīng)過(guò)收集和清洗兩個(gè)預(yù)備動(dòng)作。

以GPT-3為例,訓(xùn)練原始數(shù)據(jù)來(lái)自于網(wǎng)絡(luò)爬蟲工具CommonCrawl所獲得的45TB的互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),約包含了1萬(wàn)億Token;當(dāng)完成了數(shù)據(jù)清洗工作,數(shù)據(jù)量縮減了80倍到570GB,而Token數(shù)也減少到約40%,4100億。在這個(gè)數(shù)據(jù)歸集和清洗的準(zhǔn)備階段,對(duì)于存儲(chǔ)容量和并發(fā)訪問(wèn)需求還是客觀存在的,基本上還是前些年大數(shù)據(jù)應(yīng)用和數(shù)據(jù)湖之類的典型需求。

另外,由于直到GPT-4都未能在訓(xùn)練階段就啟用多模態(tài)數(shù)據(jù)集,在生成式AI領(lǐng)域,非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長(zhǎng)還未真正廣泛到來(lái),這可能在未來(lái)的半年到一年內(nèi)有巨大的改變。

9. 大模型與存儲(chǔ)相關(guān)的機(jī)制

前文我們已經(jīng)討論過(guò),大模型應(yīng)用最主要的是訓(xùn)練和推理兩個(gè)階段,進(jìn)入訓(xùn)練階段,大模型運(yùn)作機(jī)制里有兩個(gè)點(diǎn)和存儲(chǔ)緊密相關(guān)。

首先是訓(xùn)練數(shù)據(jù)集的初次加載。嚴(yán)重膨脹的大模型的訓(xùn)練集群通常規(guī)??捎^,而神經(jīng)網(wǎng)絡(luò)的工作機(jī)制要求把所有數(shù)據(jù)都加載后才能開(kāi)動(dòng),這個(gè)過(guò)程中數(shù)據(jù)集有一個(gè)類似數(shù)據(jù)庫(kù)sharding的動(dòng)作,對(duì)存儲(chǔ)產(chǎn)生了大量的并發(fā)讀寫請(qǐng)求,目前大模型對(duì)存儲(chǔ)主流的訪問(wèn)模式還是通過(guò)文件接口協(xié)議,經(jīng)過(guò)清洗的數(shù)據(jù)集里是海量的小文件為主,這種情況下,NAS存儲(chǔ)的并發(fā)性能包括元數(shù)據(jù)性能都會(huì)遭受考驗(yàn)。

第二個(gè)機(jī)制是訓(xùn)練過(guò)程長(zhǎng)達(dá)數(shù)周數(shù)月且過(guò)程中經(jīng)常出錯(cuò),不得以的AI工程師早已經(jīng)提出了應(yīng)對(duì)方法Checkpoint,這個(gè)機(jī)制其實(shí)是一個(gè)被動(dòng)的應(yīng)對(duì),假設(shè)每隔8小時(shí)就可能出一次錯(cuò),那么就設(shè)置6小時(shí)為單位的Checkpoint,每隔6小時(shí)就把中間狀態(tài)數(shù)據(jù)全備份一次,下次錯(cuò)誤發(fā)生時(shí)就回滾到最近的一個(gè)checkpoint狀態(tài)再次開(kāi)始即可。這個(gè)我稱之為土法備份,把AI工程師逼的連備份軟件都設(shè)計(jì)得七七八八了。

天量參數(shù)是大模型的特色,這些中間態(tài)數(shù)據(jù)也非常巨大,假設(shè)放回到提供最初訓(xùn)練數(shù)據(jù)集的集中存儲(chǔ)或是分布式存儲(chǔ)里,讀寫過(guò)程可能很慢,會(huì)像第一次數(shù)據(jù)加載那樣持續(xù)十幾個(gè)小時(shí)或者更長(zhǎng)時(shí)間,這會(huì)帶來(lái)問(wèn)題:“備份沒(méi)做完,生產(chǎn)系統(tǒng)崩潰了“。因此,比較土豪的方案是直接在訓(xùn)練集群的節(jié)點(diǎn)上插個(gè)五六七八塊NVME SSD,把Checkpoint的數(shù)據(jù)直接本地緩存下去就行了。沒(méi)有了網(wǎng)絡(luò)和并發(fā)IO的種種困擾,“備份”和“恢復(fù)”的速度都飛快,就是成本高些。

相比訓(xùn)練過(guò)程的存儲(chǔ)需求,推理階段的難度基本上可以忽略不計(jì),在推理階段,由于模型已經(jīng)完成了訓(xùn)練和微調(diào),大部分的工作負(fù)載都是在做計(jì)算,或許會(huì)獲取一些新數(shù)據(jù)例如來(lái)自用戶的輸入,也會(huì)產(chǎn)生推理結(jié)果的數(shù)據(jù),但是數(shù)據(jù)量就是一個(gè)普通應(yīng)用的水平,沒(méi)有不同以往的巨大挑戰(zhàn)。

還有一些大模型應(yīng)用希望延續(xù)這個(gè)持續(xù)優(yōu)化的過(guò)程,上線以后,仍然不斷根據(jù)真實(shí)用戶反饋再做調(diào)優(yōu),那也可能涉及到反饋數(shù)據(jù)的處理和不同階段數(shù)據(jù)歸檔等全生命周期管理的內(nèi)容,也可能涉及存儲(chǔ)需求,但目前還沒(méi)太多真正接觸到,而且從技術(shù)上分析都屬于常規(guī)應(yīng)用需求,當(dāng)前各種存儲(chǔ)系統(tǒng)是能夠輕松應(yīng)對(duì)的。

10. 從存儲(chǔ)視角的AI總結(jié)

無(wú)可否認(rèn),除了Nvidia這個(gè)最大受益者,這一輪生成式AI推動(dòng)了所有IT產(chǎn)業(yè)鏈的需求增長(zhǎng),大大小小的廠商都在慶賀大模型帶來(lái)的新訂單。按照一位資深行業(yè)戰(zhàn)略專家的說(shuō)法,從全球2萬(wàn)億美金的IT市場(chǎng)規(guī)模大盤來(lái)看,存儲(chǔ)只占個(gè)位數(shù)的百分比,是其中比較少的部分;從AI應(yīng)用視角來(lái)看,無(wú)論是資源緊缺程度,亟待解決的技術(shù)緊迫度和預(yù)算占比,存儲(chǔ)尤其是外部存儲(chǔ)現(xiàn)在都不在優(yōu)先考慮范疇。但對(duì)于存儲(chǔ)行業(yè)來(lái)說(shuō),雖然只是眾多需要支持的應(yīng)用中的一種,但生成式AI應(yīng)用的未來(lái)增長(zhǎng)前景是值得優(yōu)先關(guān)注的。

在當(dāng)前階段,生成式AI的存儲(chǔ)需求首先是高性能低延時(shí),但這個(gè)需求并不難滿足,按照Nvidia的官方建議性能帶寬達(dá)到讀40GB寫20GB即可,它的推薦計(jì)算節(jié)點(diǎn)配置里,也只有兩個(gè)40GB的InfiniBand端口,考慮組網(wǎng)冗余,能跑滿一個(gè)端口帶寬即可。如果能夠充分發(fā)揮閃存的性能,百萬(wàn)級(jí)的IOps相信也已經(jīng)能夠滿足生成式AI的需求。

第二個(gè)需求是并發(fā)訪問(wèn)能力和數(shù)據(jù)共享,但也僅在訓(xùn)練數(shù)據(jù)加載時(shí)有強(qiáng)烈需求,另外如果以向量數(shù)據(jù)庫(kù)作為數(shù)據(jù)存儲(chǔ)的方案,那么對(duì)存儲(chǔ)的需求又再簡(jiǎn)化到了性能可靠性等傳統(tǒng)需求。

最后是一些待研究探討的高級(jí)功能,例如NVidia CUDA中的GDS支持,可以讓GPU跳過(guò)CPU直接訪問(wèn)存儲(chǔ),提高性能和響應(yīng)。另外就是前面討論過(guò)AI工程師們用工程化方法實(shí)現(xiàn)的一些存儲(chǔ)功能替代,checkpoint等等,是否能夠轉(zhuǎn)由存儲(chǔ)系統(tǒng)更專業(yè)的實(shí)現(xiàn)方式,Offload到存儲(chǔ)層完成,這都是有意思的研究方向。

除外,生成式AI的行業(yè)當(dāng)前還有絕對(duì)數(shù)據(jù)量不大和成本不敏感的特點(diǎn),綜合以上,現(xiàn)在的新NVme SSD和高性能分布式全閃的文件存儲(chǔ)兩種存儲(chǔ)產(chǎn)品是比較適合的,實(shí)踐中也大多如此。

總的來(lái)看,AI應(yīng)用的特點(diǎn)是發(fā)展非常迅速,且時(shí)不時(shí)就有引爆點(diǎn),“大模型”方興未艾,“AI智能體”的新概念業(yè)已提上臺(tái)面,新公司Imbue產(chǎn)品還沒(méi)有做,已經(jīng)從NVidia獲得兩億美金風(fēng)投和1萬(wàn)張H100,估值高達(dá)10億美金,革命性的技術(shù)迭代一個(gè)接一個(gè)。2023年,通用大模型的全球化競(jìng)爭(zhēng)仍然非常激烈,領(lǐng)頭羊集團(tuán)時(shí)不時(shí)就有開(kāi)源動(dòng)作,按照投資行業(yè)的觀點(diǎn),每一次都可能會(huì)帶來(lái)重新洗牌。國(guó)內(nèi)垂直行業(yè)大模型的百模大戰(zhàn)也如火如荼,對(duì)相關(guān)技術(shù)產(chǎn)品方案人才的需求都非常巨大,在終局未了之前,起碼會(huì)有一個(gè)窗口期,值得存儲(chǔ)行業(yè)好好把握。

分享到

nina

相關(guān)推薦