在2025全球閃存峰會期間召開的“AI智能體與行業(yè)應用”分論壇上,北京并行科技股份有限公司高級方案架構師張小瓊基于用戶視角,對算力服務與算力網(wǎng)服務的實踐路徑展開了系統(tǒng)性闡述,為行業(yè)發(fā)展提供了重要參考。
算力服務的發(fā)展背景與行業(yè)現(xiàn)狀
算力需求的爆發(fā)并非偶然,而是技術革命與產(chǎn)業(yè)升級的必然結(jié)果。從應用層面看,AI大模型的參數(shù)規(guī)模從百億級躍升至千億級,訓練一次需消耗數(shù)萬卡時;工業(yè)仿真領域,車企的碰撞測試、氣動分析需每秒數(shù)十億次的計算支撐;生命科學中,基因測序的數(shù)據(jù)處理量年均增長50%,這些場景共同構成了算力需求的“剛需池”。
IDC數(shù)據(jù)顯示,2021至2026年,中國智能算力規(guī)模的復合增長率將達52.3%,到2026年將突破1271.4 EFLOPS,而通用算力的復合增長率為18.5%,呈現(xiàn)出“智算領跑、通用跟進”的格局。
面對激增的需求,不同類型的算力供應商采取了差異化策略。國家超算中心聚焦尖端科研,服務于探月工程、氣象模擬等“國之重器”項目;云計算廠商則通過規(guī)模化部署,滿足中小企業(yè)的通用算力需求;而并行科技等專業(yè)服務商則另辟蹊徑,以用戶視角重構服務邏輯,將算力從“資源租賃”升級為“全流程服務”。這種轉(zhuǎn)型的核心在于,用戶需要的不僅是硬件資源,更是“能完成計算、能快速計算、能低成本計算”的解決方案——這也成為算力服務行業(yè)的發(fā)展共識。
值得注意的是,算力的本質(zhì)并非傳統(tǒng)意義上的資源業(yè),而是服務業(yè)。正如并行科技所提出的,早期的算力租賃類似“租車”,用戶需自行承擔閑置風險;而成熟的算力服務則像“專車”,不僅提供硬件,還包含調(diào)試、優(yōu)化等增值服務。這種定位轉(zhuǎn)變,推動行業(yè)從“賣資源”向“賣服務”轉(zhuǎn)型。
智算用戶需求的精準滿足路徑
面向智算用戶的多元化需求,并行科技構建了以“應用運行特征”為核心的服務體系,其關鍵在于解決三個問題:如何讓不同芯片適配應用、如何通過實證增強信心、如何通過方法論實現(xiàn)降本增效。
智算芯片的生態(tài)適配存在顯著差異。英偉達憑借成熟的軟件棧,在移植、調(diào)試、優(yōu)化等環(huán)節(jié)的工作量最??;國產(chǎn)芯片如昇騰、海光雖在硬件性能上追趕迅速,但生態(tài)適配需投入更多精力——從“跑起來”到“跑得快”,再到“跑得劃算”,每個階段的工作量呈階梯式增長。并行科技通過建立跨芯片測試矩陣,幫助用戶選擇最優(yōu)方案:例如某AI企業(yè)的推理場景,在4090與5090的對比中,后者性能提升1.5倍,性價比提高1.4倍,最終選擇5090實現(xiàn)成本優(yōu)化。
為增強用戶信心,并行科技以真實場景的優(yōu)化結(jié)果為依據(jù)。例如某1300億參數(shù)模型訓練,優(yōu)化前GPU利用率僅75%,節(jié)點間通信帶寬未達瓶頸,存在明顯優(yōu)化空間。通過調(diào)整CPU負載分配、優(yōu)化GPU算子調(diào)度,最終GPU利用率提升至95%,性能提高40%,相當于節(jié)省40%的成本。類似案例還包括B200與H200的對比:在13B Llama模型訓練中,B200性能達H200的2.62倍,雖價格更高,但綜合性價比反而更優(yōu)。
超算應用運行特征方法論是服務的核心工具。該方法通過采集GPU利用率、顯存帶寬、NVLink通信等20余項指標,繪制“應用運行特征雷達圖”,快速定位瓶頸類型(計算密集型、訪存密集型等),再針對性優(yōu)化。目前已覆蓋計算化學、環(huán)境科學、影視動漫等10余個行業(yè),形成可復用的“行業(yè)特征圖譜”。例如在工業(yè)仿真中,ANSYS應用的瓶頸在于內(nèi)存帶寬,通過升級DDR5內(nèi)存,計算效率提升30%。
ParaSelect服務:算力選型的智能解決方案
ParaSelect服務是并行科技基于應用運行特征的精準選型工具,其核心價值在于讓用戶“用對算力、用好算力”。該服務通過四步流程實現(xiàn)閉環(huán):首先明確應用場景(訓練/推理、模型參數(shù)、精度要求等);其次采集關鍵特征(Tensor Core利用率、PCIe帶寬等);再通過回歸模型預測性能,誤差率可低至1.9%;最后輸出最高性能與最高性價比方案。
以某10B模型訓練為例,ParaSelect預測其在H20平臺的性能為21.56 samples/s,實測值為21.2 samples/s,誤差僅1.7%。這種高精度預測源于特征設計的科學性——選取Tensor Core算力、顯存帶寬等4個核心參數(shù),通過均方根誤差最小化訓練權重系數(shù),確保不同平臺的性能可比。
基于ParaSelect,并行科技打造了“算力買手模式”。該模式整合全國17個智算中心、12個超算中心的資源(2萬卡GPU、200萬核CPU),像“滴滴調(diào)度車輛”一樣匹配算力。用戶只需提供應用描述,系統(tǒng)便會自動推薦方案:例如千級卡訓練需求,匹配某智算中心的B200集群,測試通過后直接調(diào)度資源;中小規(guī)模推理則推薦5090集群,平衡性能與成本。這種模式解決了用戶“找資源難、選資源盲”的痛點,實現(xiàn)算力的“按需分配、即取即用”。
發(fā)展歷程與未來愿景
憑借18年的技術積累,并行科技在中國高性能計算市場已形成獨特的競爭優(yōu)勢。據(jù)沙利文報告,2021年并行科技在通用超算云業(yè)務的市場份額達20.3%,位列獨立服務商第一,服務覆蓋高校、科研院所、企業(yè)等全類型客戶,構建了從“尖端科研”到“產(chǎn)業(yè)應用”的全場景服務能力。
并行科技成立于2007年,十八年來專注于超算與智算服務,2023年在北交所上市(股票代碼:BJ839493),是國家級專精特新“小巨人”企業(yè)。公司愿景是“助力科技強國,讓計算更簡單”。這一愿景的核心在于“普惠算力”——通過算力網(wǎng)整合分散資源,降低科研與企業(yè)的計算門檻。
從超算到智算,從資源到服務,并行科技以用戶視角重新定義了算力服務的內(nèi)涵。在數(shù)字經(jīng)濟加速演進的今天,這種“以用為核心”的理念,或許正是破解算力供需矛盾的關鍵所在。