AI大模型加速演進,帶動“存力”重構
AI發(fā)展的本質推動不僅是“算力升級”,更是“數據流重構”。從ChatGPT-1到GPT-4,其模型參數量和訓練數據體量增長了8倍,未來面向ChatGPT-X代模型,這一數字甚至可能有50倍的增長。支撐大模型成長的,是指數級膨脹的數據量和日趨嚴苛的數據處理效率要求。
與此同時,大模型從應用角度還面臨算力的三大痛點:
算力需求大:例如從GPT-3到Llama-3,從開始使用3640 PD(每天完成的的千萬億次浮點運算量petaflop/day)到421875 PD,計算量增長約116倍;
計算效率低:高昂的GPU資源往往無法充分利用,帶來極大浪費;
能耗壓力大:以訓練10萬億參數模型為例,需用10萬張H100、運行1193天,耗電40億千瓦時,相當于1.4億美國家庭一天的用電量。
內存方面,在AI模型高度運算趨勢下,訓練過程對內存的依賴性也日益增加。據SK海力士數據顯示,BERT時期僅5%的計算為內存密集型任務,而到GPT-3已高達92%。內存雖然在擴容,但工藝發(fā)展受限,因此可以看到大家對使用堆疊技術、容量密度高的HBM的需求增長迅速,還有顯存與服務器內存需求也在不斷增加。
再看閃存存儲部分,AI服務器的算力單元成本里大概有60%-90%是計算單元,也就是GPU。而我們要做的就是活用算力單元,讓它的使用率變高,降本增效。閃存存儲方面需要承擔的是避免停機的存儲穩(wěn)定性,還有高性能,讓GPU務盡其用,以及節(jié)能和節(jié)省物理空間。
AI訓練與推理全流程的存儲需求剖析
從AI大模型的訓練和推理角度來看存儲。AI數據流的推動過程包括數據提取、準備(清洗、向量化)、模型訓練(含檢查點和恢復)、量化、微調、推理(結合RAG抓取實時資料)以及推理結果歸檔。整個流程與存儲密切相關,不同階段對存儲的需求有所不同。
例如,數據處理、訓練、微調使用閃存為介質的固態(tài)硬盤,數據攝取、歸檔通常搭配機械式硬盤(對象存儲層),而且中間使用全閃存層作為緩存,既滿足冷數據管理,也支撐熱數據吞吐。
而且在模型訓練階段,存儲的核心任務是提供訓練數據來充分利用GPU資源,并保護訓練投資。存儲的關鍵能力包括高讀取帶寬(以減少GPU等待時間)、快速寫入檢查點數據(以便在系統崩潰時快速恢復)以及易于擴展。
推理階段則需要高可靠性和短讀取時間,以支持安全存儲和高效批量處理。
在模型訓練過程中,檢查點寫入器也與存儲高度相關,用于保存中間數據以防止系統崩潰導致的訓練中斷。以175B參數模型為例,檢查點大小約為2.45TB。若在2小時內完成2.5%的寫入時間(180秒),則存儲頻寬至少需達到13.6GB/s。也就是說在評估存儲媒介時,必須確保足夠的頻寬以滿足訓練需求。
檢查點恢復部分同理,175B的參數模型,欲恢復的模型參數與暫態(tài)數據大小約為2.45TB。假設模型是16個實例并行數據讀取,希望5小時內把數據寫回來,就需要頻寬是2.18GB/s,對存儲的吞吐能力和穩(wěn)定性提出了硬性要求。
在推理的存儲架構中,需存儲微調前后的模型數據,以及RAG數據。同時,推理完成后將提示詞輸入和結果輸出寫入存儲。以往數據直接寫入HDD(冷盤),但為提升用戶體驗,需引入硬盤緩存數據,將提示詞輸入和結果輸出存儲在SSD上,以便后續(xù)相似問題可直接從緩存獲取結果,避免重復推理。例如,128K輸入的首次Token延遲可從13秒降至500毫秒。因此,大容量SSD是理想的存儲媒介。更適用于云端和一體機,可提升速度和用戶體驗。
從終端設備到邊緣端,再到公共云混合型數據中心,整個流程涉及數據收集、模型訓練、推理、信息收集和參數調整。大模型訓練的數據需要結合RAG或實時資料進行更新,RAG數據庫可部署在邊緣端、核心數據中心或公共云。在落地應用時,需要進行整體規(guī)劃,確保全流程的無縫銜接,從而提升系統效率和用戶體驗。
銓興科技:應對AI存儲挑戰(zhàn)的創(chuàng)新實踐
在AI訓練與推理領域,銓興推出一系列企業(yè)級SSD產品與解決方案,以應對行業(yè)挑戰(zhàn)。
在企業(yè)級SSD產品方面,推出QLC PCIe 5.0企業(yè)級SSD,其最高容量達122.88TB,接口支持PCIe 5.0,還支持Dual Port,可靠性達10負18次方級別,適用于緩存、向量數據庫RAG存儲。其超高讀速,超高容量,是AI 推理的最佳存儲搭檔。
高速TLC PCIe 5.0 SSD單盤容量達30.72TB,適合模型訓練、HPC計算等高IO需求場景。其高讀寫效能的表現,是AI訓練/HPC的存儲優(yōu)先選項
高DWPD SATA SSD在SATA接口上實現最高15.36TB容量與3 DWPD寫入耐久,遠超行業(yè)平均0.5-1DWPD的功能特性。
在AI訓練一體機解決方案上,銓興帶來添翼AI擴容卡方案。該方案有效解決大模型訓練中“顯存不夠、成本太高”的痛點,原本訓練DeepSeek-R1 671B模型需168張頂級GPU,使用16張中端GPU加上8張?zhí)硪頂U容卡就能完成同等訓練,成本從4200萬降至200萬以內,降低約90%。另外,單張GPU卡PC加1張?zhí)硪砜捎柧?4B模型,四張GPU卡工作站加2張?zhí)硪砜蛇_72B模型。
該方案已廣泛適配英偉達、天數智芯、沐曦等國產顯卡,并與廈門大學、貴州大學、廣州大學等高校合作部署實測,適用于要求高精度、全參數、70B及更大模型微調訓練的本地化部署等場景。
最后
邱創(chuàng)隆強調,大模型時代不僅需要更強的中心計算能力,更需要覆蓋終端、邊緣、公有云的多層級協同存儲體系。
無論是實時抓取RAG數據庫、還是模型分發(fā)/回寫、還是訓練檢查點的寫入恢復,都需要高性能、高容量、低功耗的存儲設備提供強力支撐。