HPC向HPDA演進,“存儲墻”日益顯現(xiàn)

隨著5G、大數(shù)據(jù)和AI等新興數(shù)字化技術融入到傳統(tǒng)行業(yè),在數(shù)字化轉型和智能化升級過程中,企業(yè)數(shù)據(jù)量迎來了新一輪爆發(fā)式增長。企業(yè)依賴HPC提供大數(shù)據(jù)分析,以支撐高效的業(yè)務分析決策。同時,面對大量AI應用場景落地,計算過程必須支撐低延時、高帶寬的應用需求,對HPC存儲性能帶來了巨大考驗。

IDC 預計到2021年,全球HPC存儲市場空間可達148億美金,其中新興的HPDA和HPC-based AI場景將以年化17%、29.5%的增速快速增長。以HPDA、HPC-based AI為代表的HPC應用新趨勢,既給HPC產(chǎn)業(yè)發(fā)展帶來了新的機遇,同時也帶來了新的挑戰(zhàn),總結來說,HPC存儲面臨四大“存儲墻”:

·首先,CPU計算能力仍然按照摩爾定律成倍提升,IB互聯(lián)技術通過不斷迭代更新,持續(xù)高效匹配算力增長帶來的傳輸需求。但這些年,存儲效率的提升并未跟上計算與網(wǎng)絡的步伐,多數(shù)存儲架構還是面向一類負載打造,面對日益復雜的負載沖擊,顯得捉襟見肘。

·其次,傳統(tǒng)的HPC存儲主要基于文件協(xié)議打造,當HPC開始與大數(shù)據(jù)、AI負載融合時,如何讓數(shù)據(jù)能在不同的分析應用間更便捷的調用成為當務之急。如何實現(xiàn)跨協(xié)議訪問,是構建HPC必須解決的存儲問題。

·第三,隨著數(shù)字化轉型的持續(xù)深入,以及AI應用場景的大量落地,很多企業(yè)現(xiàn)在一天產(chǎn)生的數(shù)據(jù)量就可能達到幾十TB,比如在自動駕駛系統(tǒng)研發(fā)過程中,每車每天產(chǎn)生的數(shù)據(jù)量就能達到64TB。海量的數(shù)據(jù)即需要存儲系統(tǒng)快速的分析處理,也需要消耗大量的存儲空間和機房空間。未來企業(yè)的數(shù)據(jù)量將不可避免的從PB向EB級跨越,而如何更好的控制存儲成本,實現(xiàn)最優(yōu)的TCO,將是HPC存儲應用必須找到的解決方案。

·第四,在Hyperion Research最近進行了一項全球范圍的研究根據(jù)調查,高性能計算存儲系統(tǒng)的平均故障頻率為每年9.8次。從存儲系統(tǒng)故障中恢復的平均時間是1.7天,平均停工時間花費為每天12.7萬美元。因此,打造高可靠性的HPC存儲,是HPC產(chǎn)業(yè)發(fā)展的重要支撐。

歸納起來,HPC產(chǎn)業(yè)發(fā)展面臨存儲性能提升過慢、異構存儲難以整合、海量數(shù)據(jù)的存儲優(yōu)化管理以及打造高可靠性存儲系統(tǒng)的四大瓶頸問題。

四面出擊,打破“存儲墻”

如何推倒HPC產(chǎn)業(yè)發(fā)展的四堵“存儲墻”,充分釋放數(shù)據(jù)潛能,成為了當下HPC產(chǎn)業(yè)發(fā)展的重要課題,也是向HPDA演進升級的必由之路。

首先,最迫切需要打破的是混合負載的“性能墻”

通過筆者和不同行業(yè)客戶的溝通發(fā)現(xiàn),單純從帶寬或OPS的負載需求來說,當前產(chǎn)業(yè)是有完善解決方案的。比如某油氣行業(yè)客戶在地震資料處理環(huán)節(jié),采用了Dell EMC的Isilon分布式文件產(chǎn)品,這個環(huán)節(jié)特點是數(shù)據(jù)量大,帶寬需求高,這是Isilon的強項;而在隨后的地震資料解釋環(huán)節(jié),數(shù)據(jù)量僅TB級,但OPS需求可達數(shù)十萬,Isilon就沒法應對了,這時,他們則用了NetApp的FAS存儲。這樣帶來的一個問題就是,管理越來越復雜,還得做數(shù)據(jù)遷移也耗時費力。

這是一個比較典型的例子,其他行業(yè)還有很多,因此誰能先解決混合負載這個問題,對產(chǎn)業(yè)必然是一次大的推進。

其次,打破多應用訪問時數(shù)據(jù)快速流轉的”效率墻”

前面講到了,HPDA、HPC-based AI應用帶來了除文件以外的HDFS、S3等多種協(xié)議訪問需求,其實即便在傳統(tǒng)的HPC負載下,業(yè)務流程中數(shù)據(jù)匯聚、預處理、分析、發(fā)布所采用的訪問協(xié)議也不盡相同。因此常看到一些用戶,系統(tǒng)中文件、對象、大數(shù)據(jù)多套存儲來承載不同的業(yè)務,非結構化數(shù)據(jù)Silo問題相比結構化數(shù)據(jù)存儲更為突出,只是一直沒有好的方案。

怎么解決,我認為多協(xié)議互通是一劑良藥。

第三,打破海量數(shù)據(jù)保存的“成本墻”

成本的構成多種多樣,除了存儲本身的采購成本,還有維護運營的成本。前者,需要開發(fā)更高效的冗余算法,用更少的介質存更多的數(shù)據(jù);此外,還需要根據(jù)數(shù)據(jù)熱度決定保存在什么介質中,當前這個動作通常是手動的,比如把海量基因數(shù)據(jù)定期從文件存儲導入到磁帶庫和藍光存儲中,未來,自動化的數(shù)據(jù)流動不可或缺。還有一個方向是更高密度的設備,由于機房空間租用成本的高昂,這一點在歐美市場的需求更加迫切

第四,打破系統(tǒng)長穩(wěn)運行的“穩(wěn)定墻”

隨著數(shù)據(jù)量的增長,單次數(shù)據(jù)分析的周期越來越長,一旦出現(xiàn)故障,輕則影響分析效率,重則導致數(shù)據(jù)丟失,影響分析結果的準確性。并且,這些數(shù)據(jù)都非常珍貴,比如油氣勘探,需要人為制造一次小規(guī)模地震來獲取源數(shù)據(jù),自動駕駛場景,則是數(shù)十輛測試車輛持續(xù)不斷地在路上跑獲取數(shù)據(jù)。這些數(shù)據(jù)寶貴,且難以重復獲取。

為避免HPC存儲可靠性問題隨規(guī)模增長而加劇,存儲應具備自動從故障中恢復的能力,排除單點故障。同時,人工調優(yōu)耗時、復雜且容易出錯,存儲系統(tǒng)需要具備自我調優(yōu)能力,系統(tǒng)一旦經(jīng)過調優(yōu),就可以優(yōu)化絕大多數(shù)HPC應用的性能,而不需要隨著工作負載的變化而重新進行調整。

在服務器、網(wǎng)絡技術日趨同質化的今天,存儲已經(jīng)成為構建HPC平臺差異化競爭力的關鍵。作為HPC的數(shù)據(jù)底座,未來誰先解決這四大難題,誰就能在HPC存儲產(chǎn)業(yè)的下一波浪潮中,占據(jù)先機,并且加速推進HPC產(chǎn)業(yè)邁向新高度。

來源:網(wǎng)絡

分享到

xiesc

相關推薦