該成果聚焦通過算法優(yōu)化、架構創(chuàng)新及軟硬件協(xié)同,減少對HBM的依賴。HBM作為AI計算核心組件,長期受海外技術壟斷和產能限制,華為的技術突破或緩解國內AI產業(yè)供應鏈壓力,降低算力成本。
文字編輯|宋雨涵
1
HBM芯片
萬億算力的內存心臟
什么是HBM芯片?
HBM芯片,即High Bandwidth Memory的縮寫,意為高帶寬內存芯片,是一種專為應對數據密集型應用對內存帶寬的嚴苛需求而設計的新型存儲芯片,屬于DRAM(動態(tài)隨機存取存儲器)家族中的高端分支 。與傳統(tǒng)內存芯片相比,HBM芯片最大的特點在于采用了先進的3D堆疊技術,通過硅通孔(TSV)將多個DRAM芯片垂直堆疊在一起,并與GPU或CPU等處理器封裝在同一模塊中,實現了大容量、高位寬的DDR組合陣列。
為什么HBM芯片這么重要?
從訓練具備千億參數的Transformer模型,到部署實時推理的生成式AI應用,算力需求正以指數級態(tài)勢迅猛增長。據IDC預測,到2025年,中國智能算力規(guī)模將達到1037.3 EFLOPS,同比增長43%。然而,傳統(tǒng)“存儲墻”問題——即存儲系統(tǒng)性能限制導致計算機整體性能無法有效提升的現象,正成為算力提升的重大瓶頸。具體表現為,數據在存儲器與處理器之間的傳輸速度遠低于計算速度,進而導致能效比低下。
在此形勢下,高帶寬存儲器(HBM)與先進封裝技術成為突破瓶頸的關鍵所在。HBM借助3D堆疊與硅通孔(TSV)技術,實現了單顆帶寬超過1TB/s,相比傳統(tǒng)GDDR6提升了5倍之多;而臺積電的CoWoS、英特爾的EMIB等先進封裝技術,則通過異構集成方式,將CPU、GPU、NPU等芯片整合為“超級芯片”,有效突破了單芯片面積與功耗的限制。這兩項技術共同構成了AI算力革命的“隱形戰(zhàn)場”,其發(fā)展不僅關乎技術路線的競爭,更牽涉到地緣政治與產業(yè)鏈話語權的激烈爭奪。
2
技術命脈:
HBM在核心領域的應用實踐
1
高性能計算:加速科學發(fā)現
在氣候模擬、基因測序等HPC場景中,HBM的高帶寬特性使數據處理效率提升3-5倍。例如,英偉達H100 GPU搭載HBM3E內存,可實現每秒4TB的內存帶寬,使分子動力學模擬速度提升一個數量級。SK海力士預測,到2030年,HPC領域對HBM的需求將以年均30%的速度增長,成為推動HBM市場擴張的核心動力。
2
人工智能與機器學習:賦能大模型訓練
深度學習訓練對內存帶寬和容量的需求呈指數級增長。以GPT-4為例,其1.8萬億參數需要TB級內存支持。HBM4通過提供每堆棧1.5TB/s的帶寬,使AI加速器能夠實時處理海量數據,將訓練周期從數月縮短至數周。谷歌TPU v5e采用HBM3技術,使推薦系統(tǒng)模型推理延遲降低60%,顯著提升用戶體驗。
3
數據中心與云計算:重構能效比
隨著東數西算工程推進,數據中心對PUE(電源使用效率)的要求日益嚴苛。HBM的低功耗特性使其成為降低數據中心TCO(總擁有成本)的關鍵技術。英特爾Sapphire Rapids處理器集成HBM2E內存,使內存子系統(tǒng)功耗占比從25%降至15%,同時將每瓦特性能提升40%。這種能效優(yōu)勢使HBM在邊緣計算、實時分析等場景中具有不可替代性。
三、UCM推理創(chuàng)新技術降低對HBM依賴
在今天的2025金融AI推理應用落地與發(fā)展論壇上,華為發(fā)布的AI推理創(chuàng)新技術UCM(推理記憶數據管理器)。作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數據,擴大推理上下文窗口,以實現高吞吐、低時延的推理體驗,降低每Token推理成本。
據悉,UCM可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動,同時融合多種稀疏注意力算法實現存算深度協(xié)同,使長序列場景下TPS(每秒處理token數)提升2至22倍,從而降低每個Token的推理成本。
選擇金融領域作為發(fā)布場景,因金融行業(yè)對AI推理的實時性、穩(wěn)定性和安全性要求極高(如高頻交易、智能風控)。華為此次成果已通過金融級嚴苛場景驗證,未來可向醫(yī)療、工業(yè)、智慧城市等領域輻射,加速AI推理技術規(guī)?;涞?。華為此次攜手中國銀聯共同發(fā)布AI推理的最新應用成果,共同探索AI推理技術在金融領域的規(guī)?;涞芈窂?。
該技術突破將推動昇騰AI芯片、CANN異構計算框架等核心生態(tài)組件的應用,利好昇騰服務器代工、算力調度、垂直行業(yè)解決方案等產業(yè)鏈環(huán)節(jié),并促進金融、政務、醫(yī)療等場景的AI商業(yè)化進程。
為何能夠降低AI訓推對HBM的依賴?
“以存代算”技術核心解析:該技術通過將AI推理所需的矢量數據從DRAM內存遷移至SSD閃存介質,以此優(yōu)化計算效率。其核心價值在于緩解先進制程的限制(例如華為受7nm制程制約)、降低對HBM/GPU的過度依賴,并實現“存算一體”系統(tǒng)創(chuàng)新。該技術的本質是存儲層的擴展(從內存擴展到SSD),而非替代DRAM。
全球“以存代算”產業(yè)趨勢:這并非華為獨有的技術,日本鎧俠正在推進SSD賦能AI推理,美光推出了AI-SSD產品線,英偉達等巨頭也在同步布局。華為由于受到美國制裁,無法突破先進制程,因此轉向系統(tǒng)級創(chuàng)新,這是其布局該技術的特殊動因。
華為“以存代算”硬件突破:華為采用DOB封裝技術,突破了傳統(tǒng)16層的限制,實現了24/36層堆疊,單顆芯片容量達到36TB;推出了palm-SSD產品,2024年容量為128TB(巴掌大?。?,2025年將升級至256TB(密度較普通硬盤高1000倍)。其核心技術支撐包括采用長江存儲232層3D NAND顆粒(單顆粒1TB),以及在PCB板上集成8顆36TB或10顆24TB芯片。
華為關鍵芯片創(chuàng)新:SSD主控芯片負責數據尋址調度(類比電影院座位分配),解決了閃存顆粒讀寫不均導致的性能衰減問題。華為采用海思自研的Hi1812/Hi1822系列主控芯片,技術突破點在于維持長期讀寫速度(從物理層限制轉為數學優(yōu)化),并通過均衡磨損算法延長SSD壽命。
“以存代算”核心邏輯與前景:該技術的哲學理念是“存即是算”(記憶能力是智能的組成部分),2024華為存儲精英大會已發(fā)布了相關技術路線,東北電子團隊已連續(xù)兩年深度追蹤。在市場空間方面,AI推理需要非易失存儲來保存中間過程,2025華為全聯接大會將重點推廣此技術。華為AI的三大方向包括昇騰芯片、大規(guī)模組網、存儲賦能,AI推理帶動的SSD需求將持續(xù)超越傳統(tǒng)存儲的增長曲線。
結語:
這場博弈也揭示了一個顛覆性邏輯:存儲正在成為新的算力戰(zhàn)場。華為以“存即是算”的技術哲學,通過系統(tǒng)級創(chuàng)新繞開制程限制,將存儲劣勢轉化為架構優(yōu)勢。