在2025人工智能基礎(chǔ)設(shè)施峰會舉行期間,曙光存儲副總裁張新鳳接受DOIT記者采訪時表示,從大模型的訓(xùn)練到推理應(yīng)用的落地,AI領(lǐng)域?qū)Υ鎯Φ男枨蟪尸F(xiàn)出爆發(fā)式增長且不斷變化的態(tài)勢。

早期,AI處于大模型訓(xùn)練階段,Checkpoint數(shù)據(jù)吞吐量極大。張新鳳提到:“以單卡為例,寫入帶寬可達(dá)2-5G,若處理視頻數(shù)據(jù),帶寬需求甚至高達(dá)7-8G。在千卡集群的情況下,對存儲帶寬的需求達(dá)到TB級。在NVMe全閃技術(shù)出現(xiàn)之前,傳統(tǒng)的HDD混閃方案一個節(jié)點(diǎn)僅能提供3-5GB的帶寬,要滿足TB級帶寬需求,不僅需要數(shù)百個節(jié)點(diǎn),還會帶來高昂的造價成本,同時機(jī)房空間占用和電費(fèi)等問題也接踵而至。這一階段,存儲性能成為制約AI發(fā)展的關(guān)鍵因素?!?/p>

隨著AI的發(fā)展,尤其是進(jìn)入2025年,推理應(yīng)用逐漸興起。張新鳳強(qiáng)調(diào):“推理應(yīng)用對存儲的要求與訓(xùn)練階段截然不同,其核心在于縮短推理tokens生成時間,或在一秒內(nèi)生成盡可能多的tokens,同時要保證生成tokens的質(zhì)量,避免出現(xiàn)AI幻覺等問題。這些新的需求促使存儲技術(shù)必須不斷創(chuàng)新和優(yōu)化。”

張新鳳分析道:“DeepSeek對算力要求的降低,從表面上看似乎會減少對存儲的短期需求,但實(shí)際上卻擴(kuò)大了AI的受眾范圍,使更多企業(yè)有可能成為AI客戶,這意味著AI基礎(chǔ)設(shè)施涉及的范圍更廣,從長遠(yuǎn)來看對存儲市場是利好的。然而,從訓(xùn)練到推理的轉(zhuǎn)變,對存儲的訴求發(fā)生了很大變化,存儲能否適應(yīng)這些新需求成為關(guān)鍵問題。”

同時,市場上出現(xiàn)了很多一體機(jī),存力和算力的需求從集中型數(shù)據(jù)中心發(fā)散到邊緣設(shè)備,產(chǎn)品多元化。張新鳳表示:“這對于企業(yè)級存儲來說,短期內(nèi)是利空的。另外,DeepSeek利用算法彌補(bǔ)硬件設(shè)施的缺失,使得一些企業(yè)無需采購新硬件,這在短期內(nèi)也對存儲市場產(chǎn)生了一定的沖擊。但從長期來看,新技術(shù)應(yīng)用成本與應(yīng)用規(guī)模打破臨界值后,會推動大規(guī)模的基礎(chǔ)設(shè)施建設(shè),AI基礎(chǔ)設(shè)施仍將呈現(xiàn)集中與邊緣結(jié)合的方式,這為存儲市場帶來了新的機(jī)遇?!?/p>

全新升級AI存儲方案

曙光存儲ParaStor F9000專為AI訓(xùn)練場景量身打造,針對AI訓(xùn)練帶來的GPU利用率低、KV Cache、向量數(shù)據(jù)庫存儲和檢索性能低等問題,升級后的ParaStor可整機(jī)柜交付,提供千卡/萬卡/十萬卡集群整機(jī)柜交付方案,輕松容納DeepSeek-R1這樣千億級參數(shù)的大模型,部署時間縮短50%。

性能方面,ParaStor F9000更是表現(xiàn)卓越,擁有500萬IOPS的強(qiáng)大處理能力和190GB/s的高速帶寬。借助五級加速技術(shù)和秒級彈性擴(kuò)容功能,可將GPT- 4級別模型的訓(xùn)練周期從原本的3個月大幅縮短至1周,加速AI技能迭代。

大模型實(shí)時推理往往帶來每秒千萬級的并發(fā)請求,對存儲性能要求極高。FlashNexus集中式全閃存儲在AI推理領(lǐng)域樹立了新的性能標(biāo)桿,其32控配置可實(shí)現(xiàn)超3000萬IOPS的驚人性能,時延低至0.202ms,在SPC-1基準(zhǔn)評測中榮獲全球第一。

基于國內(nèi)最新芯片級研發(fā)成果,優(yōu)化從處理器芯片、RDMA網(wǎng)絡(luò)芯片、PCIe芯片、NVMe控制器芯片的端到端協(xié)議路徑。微控架構(gòu)建立無鎖化的數(shù)據(jù)IO“超級隧道”,將寫性能提升2倍以上。為AI推理的向量數(shù)據(jù)庫、KV Cache長文本存儲提供了更優(yōu)方案。此外,高性能數(shù)據(jù)加密、完善的數(shù)據(jù)保護(hù)等技術(shù)為用戶最關(guān)鍵的私域核心數(shù)據(jù)資產(chǎn)提供全方位保護(hù)。

面對大模型實(shí)時推理需求,該產(chǎn)品可“零幀起手”支撐每秒百萬級并發(fā)需求;聚焦自動駕駛決策實(shí)時性需求,可以毫秒級速度加載TB級路況數(shù)據(jù);針對金融客戶,可在高波動市場環(huán)境下穩(wěn)定處理高頻量化交易數(shù)據(jù)流,讓交易更高效、安全。

升級后的ParaStor S6000系列,以1.44PB/框的超大容量和20%成本降低支撐千億參數(shù)歸檔。單框配置14塊NVMe盤和60塊SATA/SAS盤,通過冷熱數(shù)據(jù)分層技術(shù)和智能數(shù)據(jù)調(diào)度功能,實(shí)現(xiàn)動態(tài)優(yōu)化存儲資源的分配、跨形態(tài)熱溫冷數(shù)據(jù)無感流動,提高存儲資源的利用率。

通過與2U2N全閃節(jié)點(diǎn)的統(tǒng)一管理和使用,利用系統(tǒng)間無縫數(shù)據(jù)遷移等技術(shù),顯著降低使用和運(yùn)維成本。

張新鳳介紹,第二代ParaStor全閃智存產(chǎn)品基于2U通用的NVMe全閃服務(wù)器構(gòu)建。

第一代產(chǎn)品推出時,基于NVMe全閃技術(shù),已實(shí)現(xiàn)150GB的帶寬和320萬的IOPS,有效緩解了當(dāng)時AI大模型訓(xùn)練的存儲壓力。但隨著AI項(xiàng)目的推進(jìn),客戶對存儲帶寬的要求越來越高,幾乎沒有上限?;谕ㄓ糜布拇鎯ζ脚_在發(fā)揮PCIe性能時遇到瓶頸,為了突破這些限制,曙光決定打造專用的存儲硬件平臺——F9000 2U2N。張新鳳詳細(xì)解釋道:“在這款硬件平臺中,2U的節(jié)點(diǎn)內(nèi)設(shè)置2個節(jié)點(diǎn),每個節(jié)點(diǎn)帶12塊盤,實(shí)現(xiàn)了每塊NVMe盤與CPU直通,極大地提升了性能,確保24塊盤的性能能夠充分發(fā)揮?!?/p>

在軟件方面,曙光針對AI訓(xùn)練和推理的特點(diǎn)進(jìn)行了多項(xiàng)優(yōu)化。訓(xùn)練時,為解決GPU等待數(shù)據(jù)的問題,推出XDS技術(shù)(類似國外的GDS技術(shù))。張新鳳表示:“該技術(shù)不僅支持國外主流GPU,對國產(chǎn)加速卡也有很好的支持,能夠讓數(shù)據(jù)直通GPU的卡,使存儲節(jié)點(diǎn)的內(nèi)存占用直接降低80%,CPU利用率下降約一半,讓存儲節(jié)點(diǎn)能夠釋放更多資源處理其他業(yè)務(wù)負(fù)載?!蓖瑫r,Burst Buffer技術(shù)也是一大亮點(diǎn)?!霸谔幚鞢heckpoint數(shù)據(jù)時,先將數(shù)據(jù)寫到GPU本地節(jié)點(diǎn)的NVMe存儲介質(zhì)上,待空閑時再寫入存儲,這樣縮短了數(shù)據(jù)寫入距離,性能提升了兩倍?!?/p>

在推理應(yīng)用方面,曙光針對訓(xùn)練tokens生成的關(guān)鍵需求,采用了KV Cache技術(shù),將更多的tokens緩存起來,以存代算,減少重新計(jì)算的時間。同時,對向量數(shù)據(jù)庫進(jìn)行專用的性能優(yōu)化,提升了推理效率和生成結(jié)果的質(zhì)量。張新鳳透露:“目前,該產(chǎn)品的節(jié)點(diǎn)性能已提升至190GB帶寬和500萬IOPS,且未來還有進(jìn)一步提升的空間?!?/p>

在AI大模型的訓(xùn)練和推理場景中,曙光根據(jù)不同階段的需求,提供了靈活的方案組合。張新鳳介紹:“在訓(xùn)練和推理對性能要求極高的階段,通常采用分布式全閃方案,以滿足高并發(fā)帶寬和低延遲的需求。而在數(shù)據(jù)預(yù)處理和歸檔階段,由于數(shù)據(jù)量較大,如果全部采用全閃方案成本過高,此時曙光會推薦高密的混閃產(chǎn)品,利用大容量硬盤構(gòu)建存儲空間。對于數(shù)據(jù)量規(guī)模不是特別大的客戶,則推薦FlashNexus NVMe全閃盤陣,其具有延遲低、并發(fā)度高的特點(diǎn),不僅適用于金融的在線實(shí)時交易、醫(yī)療HIS系統(tǒng),也能很好地滿足AI推理需求。如果用戶之前在FlashNexus存儲了數(shù)據(jù),可直接基于這些數(shù)據(jù)進(jìn)行處理和推理分享,十分便捷?!?/p>

行業(yè)布局:AI存儲,中國第一

曙光存儲自稱“最懂AI的存儲”,并非虛言。張新鳳介紹:“在訓(xùn)練階段,XDS和Burst Buffer技術(shù)有效解決了GPU空載等數(shù)據(jù)的問題,大幅提升了GPU利用率。以前GPU利用率僅30%-40%,采用曙光存儲技術(shù)后,利用率可達(dá)到70%-80%。對于大的訓(xùn)練中心來說,GPU造價高昂,減少等待時間能避免巨大的經(jīng)濟(jì)損失?!?/p>

在推理階段,曙光通過用戶處理私域的專業(yè)數(shù)據(jù),利用向量數(shù)據(jù)庫和KV Cache加速技術(shù),解決了推理中幻覺的問題,提高了生成tokens的效率和精度。曙光致力于打造AI全數(shù)據(jù)通道,從數(shù)據(jù)采集、加載、預(yù)處理、訓(xùn)練、推理到歸檔,都能在其存儲系統(tǒng)上完成。在不同階段,根據(jù)不同的協(xié)議和接口要求,以及數(shù)據(jù)存儲的不同介質(zhì)和區(qū)域,曙光都能提供完整的支持。

在產(chǎn)品布局上,曙光存儲圍繞AI進(jìn)行全面規(guī)劃。分布式存儲方面,無論是硬件還是軟件,都緊密圍繞AI存儲需求進(jìn)行快速適配調(diào)整,重點(diǎn)關(guān)注自動駕駛、具身智能、計(jì)算中心等典型的AI產(chǎn)出大戶。同時,曙光也在集中式存儲領(lǐng)域發(fā)力。張新鳳解釋:“一方面,分布式和集中式存儲在底層技術(shù)上有相通之處,特別是在NVMe協(xié)議的應(yīng)用上;另一方面,客戶對高性能集中式存儲的需求強(qiáng)烈,而目前國內(nèi)市場上可選的優(yōu)質(zhì)產(chǎn)品較少。曙光在兩年前進(jìn)行了NVMe全閃布局,去年推出一款產(chǎn)品,今年將對產(chǎn)品進(jìn)行多次迭代更新,未來兩年還會有更多新產(chǎn)品推出,致力于打造最高端的集中式NVMe全閃產(chǎn)品,服務(wù)關(guān)鍵行業(yè)和應(yīng)用場景?!?/p>

張新鳳介紹,為國內(nèi)一家新勢力企業(yè)構(gòu)建底層存力平臺時,面臨著諸多挑戰(zhàn)。該企業(yè)有100多輛路測車,每天采集2-4TB的數(shù)據(jù),這些數(shù)據(jù)采集后需匯總到存儲平臺進(jìn)行清洗、標(biāo)注、去敏感信息,然后用于算法迭代訓(xùn)練,訓(xùn)練結(jié)果和部分?jǐn)?shù)據(jù)還需長期存儲。

在數(shù)據(jù)處理過程中,不同階段使用不同的協(xié)議,采集階段使用S3協(xié)議,標(biāo)注處理時用NAS協(xié)議,算法訓(xùn)練用POSIX協(xié)議,歸檔到云時又用S3協(xié)議。張新鳳感慨道:“要確保數(shù)據(jù)在不同協(xié)議之間轉(zhuǎn)換時性能無損且高級功能可用,難度極大。此外,自動駕駛數(shù)據(jù)涉及大量敏感信息,權(quán)限控制嚴(yán)格?!笔锕忉槍@些問題,進(jìn)行了大量專門的權(quán)限管理設(shè)計(jì),為客戶提供了高性能且方便易用的存儲解決方案,這也是眾多客戶長期與曙光合作的重要原因。

此外,曙光存儲還關(guān)注低空經(jīng)濟(jì)、生物信息等領(lǐng)域。張新鳳介紹:“低空經(jīng)濟(jì)中,衛(wèi)星和無人機(jī)等采集設(shè)備產(chǎn)生大量數(shù)據(jù),曙光在該領(lǐng)域已有很多百PB的案例落地。生物信息領(lǐng)域,基因測序和冷凍電鏡等前端采集設(shè)備生成具有高科研價值的數(shù)據(jù),對存儲性能要求較高,曙光幫助科研單位打通不同客戶之間的數(shù)據(jù)共享問題,其在AI領(lǐng)域積累的數(shù)據(jù)流動和存儲技術(shù)也適用于該領(lǐng)域。同時,曙光還在打造視頻存力平臺、交通存力平臺等,聚焦具體應(yīng)用場景,滿足不同行業(yè)的差異化需求?!?/p>

結(jié)語

展望未來,曙光存儲充滿信心。張新鳳說道:“隨著AI技術(shù)的不斷發(fā)展,AI基礎(chǔ)設(shè)施將呈現(xiàn)集中與邊緣結(jié)合的模式,大規(guī)模的集中訓(xùn)練和遍地開花的推理集群將成為主流場景。曙光已經(jīng)為國內(nèi)很多萬卡集群提供支持,今年年底還將打造十萬卡的集群。在這個過程中,曙光的技術(shù)也在不斷進(jìn)化,以滿足AI發(fā)展的需求。”

曙光存儲將繼續(xù)圍繞AI進(jìn)行產(chǎn)品研發(fā)和優(yōu)化,不斷提升存儲性能,降低成本,拓展應(yīng)用領(lǐng)域。張新鳳最后表示:“同時,也希望通過自身的努力,推動整個存儲行業(yè)的發(fā)展,在AI時代的存儲領(lǐng)域發(fā)揮更大的作用,為千行百業(yè)的數(shù)字化轉(zhuǎn)型提供堅(jiān)實(shí)的存儲支撐。”

分享到

lixiangjing

算力豹主編

相關(guān)推薦