為什么要面向萬卡AI集群?背景是這兩年整體的趨勢都是AI。

AI場景的存儲需求與挑戰(zhàn)

首先,這兩年一個主體的背景,更多我們關(guān)心的就是先進存力的建設(shè)。一個是國家近兩年制定了一系列宏觀政策,千億AI基礎(chǔ)設(shè)施的發(fā)展,一個就是工信部的180號文件,存儲總量超過1800EB,先進存儲容量達到30%以上。而在重點行業(yè)重點數(shù)據(jù)覆蓋率達到百分之百。另一個制造行業(yè)正在促進整個先進存力的快速發(fā)展,美國大概是1.1TB/GFlops,中國0.42,中國的存力相對不足,存在重算力輕存力。當前先進存力占比24%,智算先進存力要求30%,所以未來幾年先進存力應(yīng)該會有長足的發(fā)展。

接下來從兩個視角,宏觀視角和微觀視角和大家聊一下AI和存儲的關(guān)系。

宏觀視角,典型的大模型訓練由訓到全流程中各階段對于針對存儲語義存在多樣性。不管人工智能、機器學習,技術(shù)正在推動存儲系統(tǒng)既有能力的提升,推動了整個底層技術(shù)的革新。左圖是對大模型各環(huán)節(jié)對存儲系統(tǒng)的需求拆解,數(shù)據(jù)存儲處理、模型開發(fā)、訓練、推理基本抽象出來更大的容量,更大的吞吐,更高的性能。這里面我們總結(jié)大概跟傳統(tǒng)的存儲性能相比,存在有變化性和不變性,不變性并沒有新的存儲方式新需求出來,依然以文件對象形態(tài)為主。變動性,數(shù)據(jù)靈活流動,需要消除數(shù)據(jù)煙囪式的變化。

二是AI的出現(xiàn),數(shù)據(jù)集在持續(xù)增長,首先也是存在兩點變動性,多模態(tài)趨勢下使數(shù)據(jù)規(guī)模大幅增長,依然是驅(qū)動存儲技術(shù)的革新。從微觀視角看一下AI與存儲,我們完全從技術(shù)角度做一下分析。

其實存儲系統(tǒng)性能直接關(guān)乎著GPU的使用率和整個智算,整個AI大模型整體效率和成本直接相關(guān)。第二,存在復(fù)雜的混合讀寫模式,性能要求非常高,所以說我們分別針對高性能存儲對MSSU的重要意義做了兩點變動性的考慮,一個就是目前軟硬結(jié)合的性能優(yōu)化,需要突破馮諾伊曼架構(gòu)下的數(shù)據(jù)流動的瓶頸。第二個就是性能的超高彈性,比如說Checkpoint等階段,另一個大模型各環(huán)節(jié)典型的有各種不同的I/O模型、模式、包括數(shù)據(jù)準備、訓練、推理階段包括各種各樣的隨機讀寫、大小I/O、順序讀寫,就是各種模型在AI智算各個環(huán)節(jié)都是混合的。所以說它存在兩種變動性,一個就是多種模式混合的情況下,我們?nèi)绾稳ス?jié)省資源流轉(zhuǎn),做更好的資源調(diào)度。第二,訓推核心模式下我們?nèi)绾稳ソ档脱訒r提高吞吐?

所以總結(jié)下來,需求和挑戰(zhàn),整個AI智算需要更大的容量,也就是說每年據(jù)Gartner分析每年需要50%的高速增長,需要超大容量存儲空間,單個大模型的訓練數(shù)據(jù)可達PB級,存儲服務(wù)需要具備良好的擴展服務(wù)能力。需要更高性能,AI場景中需處理千億級別的小文件,需要文件存儲系統(tǒng)提供十萬級IOPS能力。為保證斷點續(xù)訓,需讀寫TB級CKPT文件,要求文件存儲系統(tǒng)具備百GB以上帶寬。需要更低成本,AI項目需要處理和存儲大量數(shù)據(jù),存儲成本是重要考慮因素。AI場景下數(shù)據(jù)會有明確的冷熱轉(zhuǎn)換,需要提高數(shù)據(jù)管理效率、優(yōu)化,需要更多協(xié)議,AI平臺需要與多種工具、技術(shù)及上層業(yè)務(wù)集成,AI項目在數(shù)據(jù)采集、處理、訓練、驗證、發(fā)布過程中亦涉及多種訪問協(xié)議,存儲系統(tǒng)需要融合存儲能力。

移動云文件存儲面向AI解決方案

這是我們面向AI場景去設(shè)計的一個高性能文件存儲的方案,首先我們分了四層,分別是計算資源層、接入?yún)f(xié)議層、存儲能力層、高性能的原數(shù)據(jù)層和高性能的數(shù)據(jù)層。

接口協(xié)議層:對外提供POSIX、NFS、CIFS、S3的訪問接口,支持1000+計算客戶端,負責文件語義解析以及對象語義到文件語義的轉(zhuǎn)換。

存儲能力層:作為存儲集群的核心模塊,負責文件切片、多池納管、冷熱分層、文件分池治理、IO分流、小IO聚合等一系列核心存儲能力實現(xiàn)。

高性能元數(shù)據(jù)引擎:利用高性能分布式鍵值存儲維護文件和目錄的樹狀視圖,實現(xiàn)元數(shù)據(jù)的動態(tài)分片管理、全局負載均衡。

全閃高性能數(shù)據(jù)引擎:負責隨機寫到順序?qū)憻o損語義轉(zhuǎn)換,高效管理數(shù)據(jù)索引,同時支持TCP和RDMA,支持副本和糾刪碼間的無感數(shù)據(jù)流動。

分別介紹一下整個架構(gòu)里面具體的幾點功能實現(xiàn)。

第一,我們提供統(tǒng)一命名空間與冷熱分級。我們通過左圖跨池統(tǒng)一命名空間設(shè)計,可以做到PB級文件系統(tǒng)的彈性擴展。第二根據(jù)支持用戶自定義的存儲優(yōu)先級,滿足不同場景的存儲需求。右圖是數(shù)據(jù)流轉(zhuǎn)模式,在read/write有冷池、熱池和溫池,因為支持AI全流程數(shù)據(jù)生命周期的管理,可以優(yōu)化存儲成本,提高存儲效率,同樣也是支持自定義的流轉(zhuǎn)規(guī)則,做到數(shù)據(jù)遷移過程中使業(yè)務(wù)無感。

第二,智能緩存加速與IO智能流轉(zhuǎn)。

左邊是緩存是在多協(xié)議網(wǎng)關(guān)與數(shù)據(jù)存儲和原數(shù)據(jù)存儲之間假設(shè)了一層分布式緩存能力,通過全閃緩存加速,使用SPDK無鎖隊列、RDMA網(wǎng)絡(luò)卸載技術(shù),避免了進程上下文切換、鎖搶占問題,加速全鏈路IO。構(gòu)建內(nèi)存、SSD的多層緩存機制,逐層對IO進行聚合加速,全面提升系統(tǒng)IO性能,單PB提供近百萬 IOPS、近百GB/s帶寬能力。

另一個數(shù)據(jù)跨池分布、大小IO分流。多副本的能力,EC的能力,因為EC更適合處理一些大的文件,或者大的IO,具有一些低成本的優(yōu)勢,三副本在一些小IO小文件上,性能是提升比較明顯的,所以說我們針對這個做了一些數(shù)據(jù)跨池分布,大小IO分流處理,在保證集群性能的前提下,壓縮20%存儲成本。

第三,統(tǒng)一數(shù)據(jù)底座與多協(xié)議互通能力。左邊就是數(shù)據(jù)底座和多協(xié)議互通基本架構(gòu),首先數(shù)據(jù)通路從下到上分別是TAIHU、通用語義層、網(wǎng)關(guān)層。傳統(tǒng)解決方案從數(shù)據(jù)采集到模型發(fā)布、推理,面臨多次數(shù)據(jù)拷貝和流轉(zhuǎn),一份數(shù)據(jù)存儲效率低,流轉(zhuǎn)效率低,工具語義較為割裂,使用體驗比較差。通過TAIHU解決方案,我們可以做到數(shù)據(jù)全池互通,消除數(shù)據(jù)的煙囪式分布,提高整個訓推效率。

性能收益與應(yīng)用場景

性能收益上還是針對整個大模型AI處理,做一下各階段的分析。首先是針對數(shù)據(jù)歸集和預(yù)處理上面,因為傳統(tǒng)的煙囪式的存儲解決方案處理時間較長,數(shù)據(jù)歸集、數(shù)據(jù)較為分散,我們針對此用智能數(shù)據(jù)流動能力可以進行快速的數(shù)據(jù)加載,高效存儲、高效流轉(zhuǎn),整體大概縮短35%的準備時長。

模型訓練階段,因為模型訓練最重要的還是Checkpoink和恢復(fù)階段,這兩個CPU并不能完全使用,而浪費算力。我們用我們提供的極致的讀寫能力,高IOPS和并行大帶寬,大概提升整個GPU利用率近45%以上。

整個訓推過程中,算力或者算力集群存在著穩(wěn)定性比較差的情況,就存在數(shù)據(jù)中斷,所以由此我們也是做到了多級故障隔離,業(yè)務(wù)持續(xù)化在線,完全可靠。

綜上,高性能文件存儲基于對智算全流程需求分析,針對痛點全面優(yōu)化,高效支撐萬卡集群的大模型訓練,使訓練時長降低20%以上,GPU利用率提升近15%。

應(yīng)用場景:人工智駕需要高吞吐量和低延遲加速自動駕駛模型訓練,提升數(shù)據(jù)處理速度,確保車輛具備實時決策能力,增強安全性與行駛效率。

高性能計算:基因測序,單個文件掛載點可承載數(shù)億小文件,實現(xiàn)跨區(qū)域、跨租戶數(shù)據(jù)共享,滿足海量基因數(shù)據(jù)高效處理的高帶寬需求。媒體娛樂:影視渲染,按需按時計費,多維付費模式:優(yōu)化調(diào)度效率,按需供給資源,大幅降低成本。

高性能共享服務(wù)能力:提供超高帶寬、百萬級IOPS的高性能存儲,支持千余客戶端并發(fā),渲染時長降低70%,業(yè)務(wù)量增長近3倍,經(jīng)濟效益提升近3倍。

我們針對面向AI萬卡集群的高性能文件存儲可提供大容量、高吞吐、低時延、多協(xié)議訪問能力,支持高性能計算、人工智能及媒體娛樂等多種應(yīng)用場景,全方位滿足各行業(yè)多元化需求。

(以上內(nèi)容根據(jù)速記整理,未經(jīng)本人審定)

分享到

nina

相關(guān)推薦