王曉慧分享道,大模型訓練需要消耗大量的計算資源和時間,如何高效地搭建和管理訓練集群成為加速大模型落地的核心挑戰(zhàn)。在NVIDIA的支持下,優(yōu)刻得率先將DPU應用于裸金屬物理云,實現(xiàn)了軟件定義的計算、存儲和網(wǎng)絡,助力集群計算效率提升。她強調,DPU裸金屬訓練集群為高帶寬、低延遲、數(shù)據(jù)密集的大模型訓練場景提供強大的計算引擎,大幅提升了網(wǎng)絡處理能力和數(shù)據(jù)傳輸速度。
基于DPU裸金屬所構建的訓練集群在高性能計算、數(shù)據(jù)和模型并行處理等方面優(yōu)勢突出,可輕松應對大模型時代下的嚴苛性能要求和工作負載挑戰(zhàn)。DPU裸金屬集群可以提供訓練所需的強大算力,具備千卡規(guī)模的模型訓練能力;同時以低延遲、高吞吐的特性,充分滿足了大規(guī)模數(shù)據(jù)處理和高并發(fā)場景的需求,加速模型訓練過程。此外,DPU的引入賦予了訓練集群更高的靈活性和可擴展性,使得用戶能夠根據(jù)實際業(yè)務需求靈活選擇適配的硬件和軟件堆棧,確保持續(xù)優(yōu)化模型的訓練性能和效率。
會上,王曉慧還進一步分享了優(yōu)刻得孔明智算平臺在大模型訓練場景中的優(yōu)勢??酌髦撬闫脚_是優(yōu)刻得自主研發(fā)的一款智能算力管理平臺,能夠幫助大模型公司提高訓練效率、優(yōu)化模型性能、降低開發(fā)成本。用戶可以輕松構建并管理訓練集群,并對計算資源的智能調度和優(yōu)化配置,無需將更多精力關注在底層資源層面,從而實現(xiàn)更加高效的大模型訓練。
為應對大模型訓練過程中通信異常挑戰(zhàn)、及時發(fā)現(xiàn)故障所在,優(yōu)刻得結合英偉達的GPU Direct Storage技術,自主研發(fā)了UPFS并行文件存儲系統(tǒng)。UPFS顯著提升了存儲系統(tǒng)的吞吐能力,使得CheckPoint的速度相較于傳統(tǒng)存儲提升了近10倍,確保提高訓練效率和快速恢復訓練。優(yōu)刻得智算平臺支持對同構、異構卡的統(tǒng)一調度與管理,以分區(qū)的方式提供不同的資源池;同時,支持TCP/IP協(xié)議、IB和RoCE等多樣化的網(wǎng)絡接入方案,擁有斷點續(xù)訓、數(shù)據(jù)備份、自定義故障恢復等機制,避免訓練過程中的意外中斷,為大模型訓練的安全性和連續(xù)性提供保障。
目前,優(yōu)刻得DPU裸金屬訓練集群和智算平臺已在大模型分布式訓練、自動駕駛、生物醫(yī)藥、工業(yè)制造等領域落地應用,能夠勝任在AI領域內的各類業(yè)務需求。在生物醫(yī)藥領域,基于高性能計算能力,研究人員能夠更快速地進行復雜的分子模擬和仿真訓練,加速藥物研發(fā)和優(yōu)化過程;在工業(yè)制造領域,幫助企業(yè)提高工業(yè)仿真、工業(yè)復核等任務效率,優(yōu)化生產(chǎn)流程,以實現(xiàn)智能制造。
優(yōu)刻得智能算力已廣泛服務于大模型和人工智能企業(yè),為智譜AI構建超千卡規(guī)模推理集群,實現(xiàn)成本效益和服務質量的平衡;為AI繪畫平臺圖蠅AI提升圖片生成效率和質量,設計效率提升5倍以上;為出門問問數(shù)字人應用研發(fā)提供海量算力,5分鐘內即可實現(xiàn)數(shù)字員工形象定制和上崗。
當下,優(yōu)刻得已在GPU、DPU和存儲等多個領域建立了優(yōu)勢,不僅為用戶提供高性能底層算力資源,更憑借豐富的大模型工程化實踐,為眾多大模型企業(yè)提供有力支持。未來,優(yōu)刻得將更好地為全球用戶提供智能高效、穩(wěn)定可靠的AI智算基礎設施,助推更多大模型應用的研發(fā)與落地。