這支團(tuán)隊(duì),由三家來自中國的機(jī)構(gòu)共同組建。
他們這次所做的具體任務(wù),叫做30X人類全基因組測序(WGS)胚系變異分析。
(其中,“30X”是指全基因組測序的深度)
而在這個(gè)團(tuán)隊(duì)之前,同等條件下完成這項(xiàng)任務(wù)所需的時(shí)間,卻長達(dá)近24小時(shí)之久。
所以咱就是說,現(xiàn)在的“battle”結(jié)果就是——24小時(shí) vs 7分鐘,性能整個(gè)提升了200多倍!
與此同時(shí),在相同條件下的計(jì)算成本還降低了80%,存儲(chǔ)成本也下降30%。
但更重要的一點(diǎn)是,這事可能和你我都息息相關(guān)。
因?yàn)榛蝾A(yù)測的一個(gè)用途,就是檢測罹患多種疾病的可能性,鎖定個(gè)人病變基因,以此來提前預(yù)防和治療。
(P.s.世界著名演員安吉麗娜朱莉就這么做過。)
聽起來確實(shí)是個(gè)好事,但如果放到過去,由于既耗時(shí)又費(fèi)錢,能做得起基因預(yù)測的人屈指可數(shù)。
但今時(shí)不如往日,隨著算力、AI、大數(shù)據(jù)技術(shù)的不斷發(fā)展和融合,讓基因測序這樣數(shù)據(jù)密集型應(yīng)用變得越發(fā)親民。
而這一次的“7分鐘”,可以說是把基因測序這件事往“平民時(shí)代”更推近了一步。
△ 圖源:美國國家衛(wèi)生研究院(NIH)
那么接下來的問題便是,為什么這支隊(duì)伍的方法,就能做到“快好省”呢?
從24小時(shí)到7分鐘,他們是怎么辦到的?
人類全基因組測序要做的事,就是對未知基因組序列的物種進(jìn)行個(gè)體的基因組測序。
但非常明顯的一個(gè)難題,就是其數(shù)量過于龐大。
畢竟對象可是組成人體2.5萬基因的約30億堿基對,換算成容量大小則約為3GB。
但這還不算完,為了保障基因數(shù)據(jù)的完整性,在此基礎(chǔ)上還需要做30次的平行測試。
如此一來,在最終測序完成之后,全基因組的數(shù)據(jù)量便將達(dá)到約100G。
而且隨著技術(shù)的不斷迭代演進(jìn),數(shù)據(jù)的存儲(chǔ)已經(jīng)從最初的人類基因組開始細(xì)分?jǐn)U展,逐步涉及到腫瘤、遺傳病的檢測等等。
也正是因?yàn)閿?shù)據(jù)量和數(shù)據(jù)種類的日益龐大,使得這方面的工作數(shù)據(jù)存儲(chǔ),動(dòng)輒便以PB為單位來保存。
這就直接影響到了諸如基因采樣、樣本制作、數(shù)據(jù)下機(jī)、生信分析以及后基因測序等環(huán)節(jié)。
但更為重要的是,諸如基因這樣的數(shù)據(jù),隱私安全是非常值得注重的一環(huán),而也正因?yàn)閿?shù)據(jù)量的爆發(fā)式增長,使得數(shù)據(jù)安全管理、存儲(chǔ)和分析變得異常困難。
團(tuán)隊(duì)在面對這些挑戰(zhàn)所選擇的突破口,并不是大多數(shù)人以為的強(qiáng)行堆算力,而是用底層數(shù)據(jù)存儲(chǔ)的飛躍來做到提速。
簡單來說,就是通過把以往不能合并處理的海量數(shù)據(jù),打破它們之間的壁障,讓整體的處理效率“更上一層樓”。
具體而言,他們所提出的解決方案便是大規(guī)模多組學(xué)數(shù)據(jù)并行加速分析平臺(tái)。
據(jù)介紹,華西醫(yī)院在這項(xiàng)工作中主要負(fù)責(zé)頂層設(shè)計(jì),包括多模態(tài)組學(xué)數(shù)據(jù)分析和基因應(yīng)用等。
華為在存儲(chǔ)方面,提供高性能數(shù)據(jù)存儲(chǔ)和基因數(shù)據(jù)管理系統(tǒng)的技術(shù)支持。
……
而縱觀整個(gè)流程,數(shù)據(jù)存儲(chǔ)的環(huán)節(jié)最為重要,可以說是貫穿始末:
·基因測序階段:存儲(chǔ)系統(tǒng)需要足夠的穩(wěn)定性,來保障過程不被中斷;
·基因數(shù)據(jù)分析階段:要有足夠處理小文件等任務(wù)的能力;
·數(shù)據(jù)歸檔階段:能夠?qū)⒒驍?shù)據(jù)長期、安全、完整地保存起來。
由此可見,存儲(chǔ)系統(tǒng)就像是一根“定海神針”,牢牢地把握著海量數(shù)據(jù)任務(wù)的“命脈”。
那么接下來的一個(gè)問題便是——團(tuán)隊(duì)此次能夠打破世界紀(jì)錄,它的專屬“定海神針”又是什么?
世界頂級(jí)選手在背后發(fā)力
不賣關(guān)子,團(tuán)隊(duì)在這項(xiàng)任務(wù)中的存儲(chǔ)系統(tǒng),便是來自華為面向高性能數(shù)據(jù)分析(HPDA)的分布式存儲(chǔ)OceanStor Pacific系列。
它是一種可大規(guī)模橫向擴(kuò)展的智能分布式存儲(chǔ),可以hold住高性能計(jì)算、AI應(yīng)用、數(shù)據(jù)庫、大數(shù)據(jù)分析和海量數(shù)據(jù)備份歸檔等業(yè)務(wù)需求。
而OceanStor Pacific之所以能協(xié)助團(tuán)隊(duì)在此次任務(wù)中打破世界紀(jì)錄,是因?yàn)樗陨砭褪穷^頂“世界頂級(jí)選手”光環(huán)的那種存儲(chǔ)系統(tǒng)。
在國內(nèi)范圍來看,更是獨(dú)秀一枝,不論是整體、文件存儲(chǔ)、對象存儲(chǔ)還是塊存儲(chǔ)方面,都是穩(wěn)居市場第一。
而且不僅是市場方面的表現(xiàn),從性能榜單上來看亦是如此。
這不,就在前不久IO500 (高性能計(jì)算領(lǐng)域針對存儲(chǔ)性能最權(quán)威世界排行榜之一)發(fā)布的最新榜單中,華為存儲(chǔ)HPDA Lab(由華為OceanStor Pacific存儲(chǔ)支撐)位列第二。
那么問題來了,OceanStor Pacific系列存儲(chǔ)憑什么?
從官方對它的介紹中,我們挖到了一條線索,那便是“新一代”:
這個(gè)“新”,可以總結(jié)為三個(gè)方面。
首先是超高密設(shè)計(jì)。
以O(shè)ceanStor Pacific 9950為例,它具備單框8節(jié)點(diǎn),5U、80盤位的特性。
而之所以能如此“能裝”,是因?yàn)樗鼘⒏鞣NSSD(固態(tài)硬盤)都設(shè)計(jì)的非常小巧:
另外一款5U、120盤位的OceanStor Pacific 9550,更是能夠達(dá)到單框最大可提供2.4PB的裸容量。
如此超高密度的設(shè)計(jì),便可以支撐海量數(shù)據(jù)的存儲(chǔ)。
基于這樣的硬件設(shè)計(jì)之下,便是華為存儲(chǔ)的第二個(gè)特性——“多到一,一到多”,具體來講就是:
多套存儲(chǔ)變一套,一套存儲(chǔ)支持多樣化算力。
導(dǎo)致這樣做的原因,根本上是高性能存儲(chǔ)面臨的負(fù)載類型越發(fā)復(fù)雜多樣。
傳統(tǒng)的做法就是來一個(gè)負(fù)載類型,就部署一個(gè)對應(yīng)類型的存儲(chǔ);但這樣做的結(jié)果,就是容易產(chǎn)生“孤島現(xiàn)象”,而且不利于提高整體的效率。
而理想的狀態(tài)就是存儲(chǔ)系統(tǒng)可以滿足一個(gè)“既要又要”——高帶寬、高IOPS。
(帶寬型方面的衡量標(biāo)準(zhǔn)是單位時(shí)間內(nèi)的數(shù)據(jù)總吞吐量;而IOPS則是單位時(shí)間內(nèi)能處理的總的IO請求量、以及每個(gè)IO的處理時(shí)延。)
對此,華為存儲(chǔ)所采用的策略就有點(diǎn)“隨機(jī)應(yīng)變”的味道了。
例如存儲(chǔ)系統(tǒng)在面對大文件時(shí),就對應(yīng)“大I/O”,采用直通方式將數(shù)據(jù)寫到磁盤。
這樣做的結(jié)果,就讓大文件的寬帶處于業(yè)界2倍的水平。
而當(dāng)與之相對的小文件到來時(shí),就對應(yīng)“小I/O”,主要是將數(shù)據(jù)聚合后寫到磁盤:
如此一來,就可以在理想的時(shí)延下提升磁盤空間的利用率,而且小文件的隨機(jī)性能也達(dá)到了業(yè)界的5倍。
OceanStor Pacific系列存儲(chǔ)的第三個(gè)獨(dú)特性,便是打通協(xié)議的“任督二脈”。
華為存儲(chǔ)提出這個(gè)特性的大背景,是因?yàn)楝F(xiàn)在在處理諸如基因測序這樣的任務(wù)時(shí),數(shù)據(jù)往往會(huì)呈現(xiàn)多種格式,例如文件、對象、大數(shù)據(jù)等等。
也正因如此,以往在整個(gè)數(shù)據(jù)處理過程中,單是數(shù)據(jù)轉(zhuǎn)化、拷貝、加載這樣的工作就占到了35%的時(shí)間。
于是,為了這方面的提高效率,就需要新的“協(xié)議互通”技術(shù)。
而這種新技術(shù)并不是指“共池”,在本質(zhì)上是有著很大的區(qū)別。
“共池”主要共享硬件資源池,是在一套硬件上劃分出多個(gè)獨(dú)立的邏輯資源池,并根據(jù)不同的數(shù)據(jù)類型做部署。
但問題在于每個(gè)邏輯資源池只支持一種協(xié)議訪問,也就是說跨協(xié)議的時(shí)候,還是需要經(jīng)過“數(shù)據(jù)拷貝”的過程:
華為存儲(chǔ)提出的“協(xié)議互通”技術(shù)則不然,實(shí)現(xiàn)的是多個(gè)協(xié)議共用一個(gè)硬件資源池。
而且還是同時(shí)支持文件、對象、大數(shù)據(jù)等多種協(xié)議訪問的那種:
換言之,現(xiàn)在當(dāng)一份數(shù)據(jù)“走進(jìn)”存儲(chǔ)系統(tǒng)后,不再需要做任何的轉(zhuǎn)換了,可以直接被其它協(xié)議直接訪問。
這便是打通協(xié)議“任督二脈”的奧義所在了。
而也正是因?yàn)閯偛胖v到的這些獨(dú)有“功夫”,華為存儲(chǔ),這個(gè)世界級(jí)選手所涉足的領(lǐng)域早已不僅限于基因測序。
還有眾多諸如此類的海量數(shù)據(jù)場景,例如能源勘探、氣象海洋、智能制造、超算中心等等。
……
不難看出,華為在數(shù)據(jù)存儲(chǔ)這一塊,可謂是內(nèi)修功法、外用其力。
那么最后一個(gè)問題便是:
數(shù)據(jù)存儲(chǔ),為什么這么重要?
因?yàn)橐粋€(gè)非常明顯的趨勢是:
在智能時(shí)代之下,數(shù)據(jù)存儲(chǔ)已經(jīng)成為數(shù)據(jù)密集型應(yīng)用的瓶頸。
或許你會(huì)說,數(shù)據(jù)量大,哪怕是PB級(jí)別,把算力堆上去不就可以了嗎?
確實(shí),在過去一段時(shí)間里,在處理像基因測序、生物制藥等數(shù)據(jù)密集型應(yīng)用時(shí),大家似乎都會(huì)關(guān)注其背后的高性能計(jì)算(HPC)的效果如何。
每年的HPC Top 500 高性能計(jì)算機(jī)排行榜,也成為公眾備受關(guān)注的“保留節(jié)目”。
但隨著數(shù)據(jù)爆發(fā)式的增長,以及AI技術(shù)的不斷推陳出新,數(shù)據(jù)密集型應(yīng)用的發(fā)展不再僅僅聚焦在算力方向。
正如IDC所統(tǒng)計(jì)的那般:
全球67%的高性能計(jì)算中心已經(jīng)在使用AI、大數(shù)據(jù)相關(guān)技術(shù)。
換言之,HPC、AI和大數(shù)據(jù),它們?nèi)齻€(gè)融合的速度正在加快。
也正因如此,數(shù)據(jù)密集型應(yīng)用正在步入一個(gè)新的時(shí)代—— 高性能數(shù)據(jù)分析 (HPDA)。
在這個(gè)時(shí)代之下,類似自動(dòng)駕駛、基因測序等任務(wù),對于數(shù)據(jù)分析的實(shí)時(shí)性要求越來越高。
而要實(shí)現(xiàn)這一點(diǎn),也正如剛才我們所闡述的,離不開“數(shù)據(jù)存儲(chǔ)系統(tǒng)”這一夯實(shí)的底座。
唯有這根“定海神針”足夠穩(wěn)固、扎實(shí),且需得具備技術(shù)上的創(chuàng)新,才能保證其上層的工作以及上層與之的交互暢通無阻。
但比起應(yīng)用方面的絲滑,通過推進(jìn)新一代存儲(chǔ)系統(tǒng)(即HPDA)來進(jìn)一步發(fā)展數(shù)據(jù)密集型應(yīng)用,這件事還具有更深遠(yuǎn)的意義。
例如油氣地震勘探也在進(jìn)入海量數(shù)據(jù)時(shí)代,需要采用大量的高性能計(jì)算和大數(shù)據(jù)分析技術(shù)。
但痛點(diǎn)也正如剛才我們提到的,其間的任務(wù)絕不是單一的,所產(chǎn)生的數(shù)據(jù)類型、結(jié)構(gòu)也是紛繁復(fù)雜。
而通過新一代存儲(chǔ)系統(tǒng)的優(yōu)勢,就可以做到規(guī)?;y(tǒng)一部署,以此來提高整體流程的效率。
再如超算中心、智能醫(yī)療、自動(dòng)駕駛,甚至是宇宙探測等,均是需要HPDA的能力來完成對海量數(shù)據(jù)的高效分析。
這些亟需注入“新力量”的領(lǐng)域,恰恰正是科技、經(jīng)濟(jì)強(qiáng)國所發(fā)力的地方。
從另一種角度來看,新一代數(shù)據(jù)存儲(chǔ)正在成為國家的關(guān)鍵基礎(chǔ)設(shè)施,堪稱“國之重器”。
而華為OceanStor Pacific系列存儲(chǔ),無論是從市場份額、技術(shù)實(shí)力排名等等,均已成為國產(chǎn)新一代數(shù)據(jù)存儲(chǔ)系統(tǒng)中的不二之選。
但比起亮眼的成績,在最重要的實(shí)際行動(dòng)方面,華為OceanStor Pacific系列存儲(chǔ)也已經(jīng)是處于“進(jìn)行時(shí)”了。
至于接下來在HPDA時(shí)代中,新一代數(shù)據(jù)存儲(chǔ)的技術(shù)進(jìn)步還將結(jié)出怎樣的碩果,是值得拭目以待了。
參考鏈接:
[1]https://en.wikipedia.org/wiki/Human_Genome_Project
[2]https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost
[3]https://io500.org/