2025年3月27日,在2025人工智能基礎(chǔ)設(shè)施峰會上,Solidigm(思得)亞太區(qū)應(yīng)用工程部總監(jiān) 翁昀 分析了AI工作流對于存儲的具體需求,也介紹了AI數(shù)據(jù)中心層面面臨的挑戰(zhàn),這兩方面都推動了對更大容量QLC SSD的迫切需求。
AI工作流為什么需要更大容量的SSD?
翁昀詳細(xì)分析了AI的典型工作流程,從最開始的數(shù)據(jù)采集、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練,再到推理、以及最后的數(shù)據(jù)歸檔,每個環(huán)節(jié)都需要存儲的全力支持。
數(shù)據(jù)采集階段要從后端的存儲,比如從對象存儲中把原始數(shù)據(jù)先讀出來,這一過程可能涉及PB級別的順序?qū)懭氩僮?,對存儲的寫入速度要求很高。而在?shù)據(jù)準(zhǔn)備階段,雖然數(shù)據(jù)規(guī)模變成了TB級別,但對順序讀取性能的要求非常高。
訓(xùn)練階段雖然涉及的數(shù)據(jù)規(guī)模更小了,但這一環(huán)節(jié)更為復(fù)雜和關(guān)鍵。除了要進(jìn)行模型訓(xùn)練,還要頻繁創(chuàng)建和恢復(fù)檢查點(diǎn)(Checkpoint),還要驗(yàn)證模型質(zhì)量,還可能需要量化來優(yōu)化模型性能。
這一環(huán)節(jié)涉及的數(shù)據(jù)進(jìn)一步縮小到了GB級別,但是讀寫方式發(fā)生了變化。對于隨機(jī)讀的性能要求很高,在隨機(jī)讀場景中,SSD相較于HDD硬盤的優(yōu)勢非常明顯。HDD硬盤IOPS大概200,而SSD可以輕松做到百萬IOPS。
推理過程涉及的數(shù)據(jù)提升到了TB級,此時最需要的是隨機(jī)讀取的性能,這仍是SSD的強(qiáng)項(xiàng)。最后在歸檔時,對隨機(jī)寫入性能要求會比較高,從性能角度來講,SSD優(yōu)勢依然非常明顯。
從上述AI流程中可以看到,各個階段對于存儲性能的要求都比較高,而SSD的性能優(yōu)勢都非常明顯。但這只能說明AI需要SSD的存儲性能,還不能說明為什么需要大容量的SSD。
人們都說,更強(qiáng)的算力、更大的參數(shù)規(guī)模以及更大的訓(xùn)練數(shù)據(jù)量是提升AI模型性能的三條主要路徑。翁昀分享了來自MIT的數(shù)據(jù),為了提升模型表現(xiàn),數(shù)據(jù)集的規(guī)模正在爆炸性增長,如果SSD的容量不跟著增長,只增加更多機(jī)架是不行的。
AI數(shù)據(jù)中心為什么需要更大容量的企業(yè)級SSD?
在AI迅猛發(fā)展的今天,電力已成為數(shù)據(jù)中心擴(kuò)展的關(guān)鍵瓶頸。一些國家和地區(qū)甚至由于電力預(yù)算不足,導(dǎo)致數(shù)據(jù)中心建設(shè)項(xiàng)目被擱置。
有一種說法,AI算力的極限,最終不是由算力芯片性能決定的,而是由能提供多少電力來決定的。在這樣的背景下,SSD,特別是大容量SSD,成為緩解供電壓力的重要手段。
大容量SSD通過提升存儲密度來緩解供電壓力。比如,Solidigm的QLC SSD已經(jīng)從單盤61TB提升到了122TB,存儲密度的提升,意味著在相同的容量下,所需的機(jī)架空間和耗電量都將顯著減少,不僅可以緩解數(shù)據(jù)中心供電壓力,還能節(jié)省機(jī)架空間。
與此同時,SSD還能通過提高GPU的利用率,提升現(xiàn)有數(shù)據(jù)中心計(jì)算資源的價值。SSD具備更高吞吐性能,能緩解I/O瓶頸,及時為GPU提供充足的數(shù)據(jù)。在GPU資源緊張的背景下,SSD能幫助GPU充分發(fā)揮其價值。
Ocient是一家數(shù)據(jù)分析解決方案服務(wù)商,原來該公司基于HDD硬盤打造了4.41PB的大數(shù)據(jù)存儲系統(tǒng),最大功耗超過200千瓦。而當(dāng)使用了Solidigm的大容量固態(tài)盤后,機(jī)架數(shù)減少到了3個,功耗降低了77%以上,三年可節(jié)省高達(dá)160萬美元的能源開支。
翁昀提到,雖然不同地區(qū)的能源瓶頸問題的程度會有差異,時間上可能有先后,但是各地區(qū)的能源、資源總是有限的,不可能無限制地往上增長。但大容量SSD為數(shù)據(jù)中心帶來的價值是不會被磨滅的。
大容量QLC SSD在AI時代非常受歡迎
顯而易見的事實(shí)是,AI火的這兩年SSD容量在迅猛提升,去年一度出現(xiàn)了大容量SSD因供不應(yīng)求出現(xiàn)大幅漲價的情況。Solidigm是最早推出61TB以及122TB的企業(yè)級SSD廠商,隨后,市場上出現(xiàn)了多款提供這一容量規(guī)格的SSD,足見需求之大。
可以說,QLC SSD在AI時代迎來了絕佳的發(fā)展機(jī)遇。通過全面替代傳統(tǒng)的 TLC+HDD的存儲架構(gòu),不僅簡化了存儲層級,還能有效降低機(jī)架數(shù)量、減少存儲電力消耗,提升計(jì)算能力,打破了HDD面臨AI場景時的諸多問題。
翁昀以Solidigm的產(chǎn)品組合為例,詳細(xì)介紹了在AI工作流當(dāng)中具體需要什么樣的企業(yè)級SSD,能清晰看出大容量QLC在其中的重要作用。
在數(shù)據(jù)攝取和歸檔階段階段,涉及的數(shù)據(jù)量比較大,且對性能要求也比較高。翁昀認(rèn)為,Solidigm D5-P5336就非常合適,它基于QLC提供了最高122TB的容量,是傳統(tǒng)大容量盤的4倍。
而在數(shù)據(jù)準(zhǔn)備、訓(xùn)練、檢查點(diǎn)以及推理階段,對容量密度要求不高,但對讀寫性能有較高要求。翁昀認(rèn)為,基于TLC的Gen5接口的Solidigm D7-PS1010和Solidigm D7-P5520,或者基于QLC的Solidigm D5-5430也能很好地滿足需求。
Solidigm D7-PS1010和PS1030是去年發(fā)布的性能型SSD,DWPD分別為1和3,支持E3.S和U.2多種規(guī)格。相較于Gen4平臺,不僅在性能方面實(shí)現(xiàn)“兩位數(shù)級”全面增長,在功耗比上也具備明顯優(yōu)勢,已成為AI高性能計(jì)算平臺中不可或缺的核心部件之一。
剛剛提到的122TB的QLC盤就是Solidigm D5-P5336,它在U.2尺寸放入了一整塊晶元的產(chǎn)能,要做到這點(diǎn)對于生產(chǎn)良率和質(zhì)量控制都極為嚴(yán)苛。Solidigm作為第一家做QLC的企業(yè)級SSD廠商,憑借在QLC技術(shù)領(lǐng)域的深厚積累才做到了這點(diǎn)。
Solidigm大容量QLC在行業(yè)的幾個典型用例
德國IPC制造商INONET發(fā)布了針對ADAS數(shù)據(jù)記錄與分析的InoNet QuickTray快速更換存儲托架。該方案用Solidigm 31TB QLC SSD取代HDD,核心優(yōu)勢在于:延長測試車行駛時間、增加數(shù)據(jù)收集量、減少返站頻率和停機(jī)時間。同時,SSD的高抗震性確保了車輛在各種路況下數(shù)據(jù)記錄的穩(wěn)定性。
倫敦動物學(xué)會 (ZSL) 為應(yīng)對城市化對刺猬等野生動物造成的生存挑戰(zhàn),利用攝像頭和 AI進(jìn)行監(jiān)測,但每天超1500萬張的圖像數(shù)據(jù)量使系統(tǒng)不堪重負(fù)。為此,ZSL與 PEAK:AIO合作,部署了結(jié)合61TB D5-P5336硬盤和英偉達(dá)DGX平臺的方案。該方案在ZSL倫敦動物園提供了1.2PB存儲,并將圖像預(yù)處理時間從3分鐘縮短至 30 秒,顯著加速了ZSL的保護(hù)研究工作。
正睿科技是一家服務(wù)器和存儲硬件開發(fā)商,該公司使用了Solidigm大容量QLC SSD打造了一套畜牧業(yè)生物基因數(shù)據(jù)存儲解決方案,解決了傳統(tǒng)分布式存儲痛點(diǎn),很好地滿足了研究所構(gòu)建單一、大容量數(shù)據(jù)湖的需求。