2019年底的新冠疫情,給全世界按下了暫停鍵。
但一場(chǎng)未被人注意到的比賽,才剛拉開(kāi)序幕。
2020年1月,新冠病毒人傳人的事實(shí)得到確認(rèn),2月,德克薩斯州麥克萊倫的研究小組的實(shí)驗(yàn)證明,新冠病毒的強(qiáng)度被證明至少是SARS的10倍……
引起疫情的原因是什么?重癥患者后期緣何會(huì)出現(xiàn)低氧血癥?病毒感染的靶細(xì)胞是什么?要從日漸攀升的確診數(shù)中拯救更多人,通過(guò)病毒基因測(cè)序來(lái)了解這種疾病顯得刻不容緩。為了探索這些問(wèn)題的答案,中國(guó)的醫(yī)學(xué)專家們?cè)谛鹿诜窝准膊〔∫驅(qū)W方面展開(kāi)了深入探索。
2020年大年初三,面對(duì)全然未知的病毒,上海市公共衛(wèi)生臨床中心緊急求助轉(zhuǎn)化醫(yī)學(xué)國(guó)家重大科技基礎(chǔ)設(shè)施(上海)瑞金基地(以下或簡(jiǎn)稱為“瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心”),瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心立即召集精兵強(qiáng)將,開(kāi)始“與時(shí)間賽跑”,對(duì)新冠病毒進(jìn)行基因測(cè)序。
對(duì)一種全新的病毒進(jìn)行測(cè)序和分析不是件容易的事情,研究人員需要持續(xù)將病毒數(shù)據(jù)納入病毒基因組快速分析流程,按照不同的參數(shù)在基因組進(jìn)化動(dòng)態(tài)分析跟蹤展示平臺(tái)進(jìn)行驗(yàn)算,整個(gè)過(guò)程耗費(fèi)超過(guò)200萬(wàn)個(gè)CPU核時(shí)。
在這場(chǎng)爭(zhēng)分奪秒的抗?fàn)幹?,面?duì)人類一無(wú)所知的新病毒,瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心從零開(kāi)始,僅用了45天就實(shí)現(xiàn)了對(duì)于新冠病毒的基因組測(cè)序和組裝,就新型冠狀病毒基因組、分子流行病學(xué)特點(diǎn)、疾病臨床特征進(jìn)行了深入研究。
2020年5月20日,《自然》雜志在線全文發(fā)表了該項(xiàng)研究成果“Viral and host factors related to the clinic outcome of COVID-2019”。文章闡述了新冠肺炎的病理生理,并為后續(xù)治療提供相關(guān)病理學(xué)依據(jù),也為保護(hù)全人類生命安全做出重要的貢獻(xiàn)。
這一切成果并非偶然。
基因測(cè)序之于瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心雖是日常工作的一部分,但要從頭完成一種新病毒的測(cè)序及研究,除了過(guò)硬的科研能力,還需要完備的基礎(chǔ)設(shè)施的支持。而早在2017年,瑞金醫(yī)院就已經(jīng)開(kāi)始打造一個(gè)集存、傳、算、用為一體的定制化超算平臺(tái),還成功利用其研發(fā)了服務(wù)全國(guó)五百多家醫(yī)院的《中國(guó)成人白血病診療登記管理系統(tǒng)》。
可以說(shuō),這項(xiàng)工作,非瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心莫屬。
“與時(shí)間賽跑”的瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心
轉(zhuǎn)化醫(yī)學(xué)一直都是一個(gè)“與時(shí)間賽跑”的領(lǐng)域。
其本質(zhì)就是在主張更為緊密地結(jié)合基礎(chǔ)醫(yī)學(xué)研究與臨床實(shí)踐,通過(guò)多學(xué)科交叉合作,實(shí)現(xiàn)“從實(shí)驗(yàn)室到臨床、再?gòu)呐R床到實(shí)驗(yàn)室”的轉(zhuǎn)化。
而一旦前期分析和探索新療法或嘗試新藥物花費(fèi)了太多時(shí)間,臨床實(shí)踐的時(shí)間便會(huì)大幅縮減,治療周期被延長(zhǎng)不說(shuō),還可能錯(cuò)失最佳治療時(shí)機(jī)。
因此,引入超算平臺(tái)對(duì)于瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心這個(gè)國(guó)內(nèi)首個(gè)也是截至目前唯一建成的國(guó)家級(jí)綜合性轉(zhuǎn)化醫(yī)學(xué)中心來(lái)說(shuō),成了一件順勢(shì)而為的事。
但在初期實(shí)踐中,該中心的IT技術(shù)團(tuán)隊(duì)發(fā)現(xiàn),該平臺(tái)搭載的英特爾? 至強(qiáng)? 可擴(kuò)展處理器固然可以保障算力性能,但存儲(chǔ)系統(tǒng)始終難以滿足實(shí)時(shí)、高頻和高效的數(shù)據(jù)訪問(wèn)和處理需求。
要知道,瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心的日常研究和工作主要圍繞基因組測(cè)序、轉(zhuǎn)錄組測(cè)序、蛋白質(zhì)組學(xué)等組學(xué)檢測(cè)技術(shù),結(jié)合不同患者生理生化指標(biāo)、疾病歷史診療結(jié)果等信息,通過(guò)生物信息學(xué)手段對(duì)原始數(shù)據(jù)進(jìn)行綜合分析,再通過(guò)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能等方法整合特征數(shù)據(jù)。而單個(gè)人類全基因組測(cè)序分析涉及的數(shù)據(jù)可能高達(dá)870GB,這一套流程下來(lái),數(shù)據(jù)量級(jí)已經(jīng)難以想象了。
同時(shí),平臺(tái)還必須滿足不同的轉(zhuǎn)化醫(yī)學(xué)團(tuán)隊(duì)對(duì)不同生信數(shù)據(jù)的高需求。也就是說(shuō),瑞金眼中超算平臺(tái)的理想存儲(chǔ)系統(tǒng),不僅要具備存儲(chǔ)海量數(shù)據(jù)的能力,還必須要具備更出色的I/O和吞吐能力。
也正是這些制約因素,讓瑞金與英特爾再次攜手合作。
打破HPC領(lǐng)域的存儲(chǔ)墻
瑞金的數(shù)據(jù)存儲(chǔ)難題并不是個(gè)例,而是在轉(zhuǎn)化醫(yī)學(xué)研究過(guò)程中的常態(tài),也是很多高性能計(jì)算系統(tǒng)都在面對(duì)的主要瓶頸。
1996年,轉(zhuǎn)化醫(yī)學(xué)的概念在柳葉刀雜志上首次問(wèn)世。2003年,時(shí)任美國(guó)NIH主任的Elias A. Zerhouni明確指出,轉(zhuǎn)化醫(yī)學(xué)的核心是要將醫(yī)學(xué)生物學(xué)基礎(chǔ)研究成果迅速有效地轉(zhuǎn)化為可在臨床實(shí)際應(yīng)用的理論、技術(shù)、方法和藥物,也即打破基礎(chǔ)醫(yī)學(xué)、藥物研究、臨床醫(yī)學(xué)之間的屏障,加強(qiáng)研究與應(yīng)用之間的結(jié)合。
在轉(zhuǎn)化醫(yī)學(xué)的實(shí)踐過(guò)程中,如果失去超算平臺(tái)的技術(shù)支持,處理海量生信數(shù)據(jù)的速度和質(zhì)量將會(huì)大打折扣。但超算平臺(tái)的建設(shè)并非一勞永逸,如果存儲(chǔ)性能跟不上算力,高性能處理器應(yīng)有的功效也會(huì)遇到效率瓶頸,這就是所謂的存儲(chǔ)墻。
打破轉(zhuǎn)化醫(yī)學(xué)的存儲(chǔ)墻,也就是在“與時(shí)間的賽跑”中拯救更多的病患。而突破高性能計(jì)算的存儲(chǔ)墻,其影響和意義也會(huì)超越單個(gè)行業(yè)或應(yīng)用領(lǐng)域。
其實(shí)不止是瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心,整個(gè)行業(yè)都亟需一個(gè)性能更出色、功能更全面、部署和應(yīng)用也更便捷的新型存儲(chǔ)方案,于是,英特爾? 傲騰? 持久內(nèi)存和基于它打造的DAOS(Distributed Asynchronous Object Storage,分布式異步對(duì)象存儲(chǔ))應(yīng)運(yùn)而生。
這個(gè)新方案幾乎是從初試啼聲開(kāi)始,就改變了高性能計(jì)算領(lǐng)域的存儲(chǔ)競(jìng)爭(zhēng)格局——以該領(lǐng)域權(quán)威的IO-500排行榜為例,瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心使用的ASTRA高性能計(jì)算平臺(tái),在去年就以高達(dá)87.50 GiB/s和2984.61 kIOP/s的帶寬和吞吐性能于拿下了該榜單10節(jié)點(diǎn)榜單第8名的排位,在IO-500總榜單上也排名第14,堪稱中國(guó)及全球生信領(lǐng)域高性能計(jì)算系統(tǒng)存儲(chǔ)性能中的佼佼者。而今年最新一期的排名上,前10名中也有一半是在使用DAOS方案。
這一切,都要?dú)w功于對(duì)于存儲(chǔ)系統(tǒng)的全新設(shè)計(jì)。在生信超算平臺(tái)的建設(shè)中,瑞金采取了三級(jí)存儲(chǔ)模式,其中原始數(shù)據(jù)的存儲(chǔ)及備份采用的是傳統(tǒng)并行文件系統(tǒng)方案,而一些追求更極致性能的生信計(jì)算部分,則采用了基于英特爾? 傲騰? 持久內(nèi)存的DAOS并行文件系統(tǒng)。
DAOS是一種開(kāi)源軟件定義橫向擴(kuò)展對(duì)象存儲(chǔ),可為高性能計(jì)算應(yīng)用提供高帶寬、低時(shí)延和高IOPS的存儲(chǔ)容器。DAOS主要使用傲騰? 持久內(nèi)存和固態(tài)盤,能形成更加靈活的分層存儲(chǔ)機(jī)制,把熱數(shù)據(jù)、源數(shù)據(jù)、索引數(shù)據(jù)放到持久內(nèi)存里,利用距離處理器更近的優(yōu)勢(shì)來(lái)為更大體量的數(shù)據(jù)提供高速低時(shí)延訪問(wèn),從而構(gòu)建出更有層次化的、能適應(yīng)新的數(shù)據(jù)讀寫(xiě)需求、模型及工作流的存儲(chǔ)系統(tǒng)。
可以說(shuō),DAOS涵蓋了創(chuàng)新存儲(chǔ)介質(zhì)和技術(shù)、以及對(duì)這些介質(zhì)和產(chǎn)品使用方式的雙重革新,這也是它贏得與時(shí)間賽跑的關(guān)鍵所在。
DAOS中這個(gè)創(chuàng)新存儲(chǔ)介質(zhì),所指就是英特爾的傲騰技術(shù),而產(chǎn)品則是基于這種介質(zhì)開(kāi)發(fā)的傲騰持久內(nèi)存。其創(chuàng)新之處,就在于它兼顧了傳統(tǒng)內(nèi)存和存儲(chǔ)產(chǎn)品的優(yōu)勢(shì),但同時(shí)又盡可能避開(kāi)了它們的短板。具體來(lái)說(shuō),現(xiàn)在的內(nèi)存多使用DRAM,它性能高、讀寫(xiě)快,主要用來(lái)承載熱數(shù)據(jù)。這看起來(lái)沒(méi)什么問(wèn)題,但問(wèn)題就在熱數(shù)據(jù)的體量一旦變大,DRAM要進(jìn)行容量擴(kuò)展時(shí),其成本過(guò)高,單條容量受限以及掉電數(shù)據(jù)就會(huì)丟失等短板就會(huì)暴露出來(lái)。
相比之下,作為DAOS存儲(chǔ)加速硬件底座的英特爾? 傲騰? 持久內(nèi)存,不但能像DRAM一樣,可插入現(xiàn)有DIMM插槽,并提供接近于DRAM的性能,還可以像存儲(chǔ)一樣,提供更大的容量規(guī)格(目前單條容量可達(dá)128GB、256GB和512GB)以及數(shù)據(jù)的持久化存儲(chǔ)。它同樣可以擔(dān)負(fù)起承載熱數(shù)據(jù)的重任,而且還是容量數(shù)倍于DRAM的熱數(shù)據(jù),這就加快了算力對(duì)數(shù)據(jù)進(jìn)行讀寫(xiě)和處理的整體效率,而且在計(jì)劃中的停機(jī)和意外宕機(jī)后,這些數(shù)據(jù)還無(wú)需從存儲(chǔ)設(shè)備中重新加載,可大大加快重啟時(shí)間并減少I/O,從而顯著降低了大內(nèi)存節(jié)點(diǎn)的功耗。
加快了數(shù)據(jù)讀取和處理速度,就加快了整個(gè)高性能計(jì)算系統(tǒng)的數(shù)據(jù)處理效率,也就為病患爭(zhēng)取了更多的治療時(shí)間。同時(shí),隨著數(shù)據(jù)不斷積累,新方案也給醫(yī)生的日常診斷提供了值得借鑒的參考,由此形成了一個(gè)數(shù)據(jù)閉環(huán),如此循環(huán)下來(lái),時(shí)間越久效果自然就越好。
破墻之后,量變引起質(zhì)變
一旦存儲(chǔ)墻問(wèn)題得到緩解,量變終會(huì)引起質(zhì)變。
在面對(duì)超高深度腫瘤全基因組測(cè)序這種超大數(shù)據(jù)的處理時(shí),原先需要一周的處理時(shí)間,在經(jīng)過(guò)全面和反復(fù)的調(diào)優(yōu),包括引入DAOS及使用至強(qiáng)可擴(kuò)展平臺(tái)對(duì)Sentieon提供的測(cè)序應(yīng)用加速后,瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心現(xiàn)在只需要7-8個(gè)小時(shí)就能得到結(jié)果,而且優(yōu)化還在持續(xù),以求更進(jìn)一步縮短腫瘤分析的用時(shí)。
效率提上去之后,基因檢測(cè)就可以更好地向臨床方向發(fā)展。
通過(guò)大數(shù)據(jù)對(duì)現(xiàn)有知識(shí)建模,在軟件的輔助下病患就能得到更多新的信息,這些信息都是與基于病患的診斷和臨床的路徑密切相關(guān)的。再納入到瑞金”300張床”的研究型病房背景下,病患就能有更多種方案的選擇,而這些都是根據(jù)數(shù)據(jù)分析的結(jié)果來(lái)確定的。
雖然瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心建立在瑞金醫(yī)院內(nèi)部,但轉(zhuǎn)化醫(yī)學(xué)中心本身又作為一個(gè)醫(yī)院在運(yùn)行,其也擁有一整套完整的信息系統(tǒng),這些信息與醫(yī)院的信息是完全對(duì)接的。
面對(duì)專病時(shí),由于其自身的數(shù)據(jù)集邏輯、檢驗(yàn)指標(biāo)等方面都存在差異,直接調(diào)用醫(yī)院系統(tǒng)數(shù)據(jù)存在較大的問(wèn)題。因此瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心正在著手一個(gè)全國(guó)性白血病數(shù)據(jù)分析的項(xiàng)目,需要采集匯總近500家醫(yī)院的數(shù)據(jù),涉及到8萬(wàn)多病人。但是在分析過(guò)程中,他們發(fā)現(xiàn),統(tǒng)一回收的數(shù)據(jù)特異性不夠,精細(xì)到某一個(gè)病后精細(xì)度又變差了。如果轉(zhuǎn)化醫(yī)學(xué)中心能夠把這些信息系統(tǒng)都打通的話,數(shù)據(jù)收集也就會(huì)變得更加輕松。
此外,隨著AphaFold2在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域聲名鵲起,相關(guān)運(yùn)行代碼的開(kāi)源分享,結(jié)構(gòu)生物學(xué)研究進(jìn)入一個(gè)新的時(shí)代。瑞金國(guó)家轉(zhuǎn)化醫(yī)學(xué)中心ASTRA高性能計(jì)算平臺(tái)共同負(fù)責(zé)人呂綱也告訴大數(shù)據(jù)文摘,中心也在嘗試?yán)酶咝阅苡?jì)算在臨床問(wèn)題中利用這些新興的技術(shù)工具,并做好隨時(shí)準(zhǔn)備應(yīng)對(duì)重大的公共衛(wèi)生安全事件的準(zhǔn)備。
呂綱還表示,隨著高性能計(jì)算逐漸滲透進(jìn)入科學(xué)的各個(gè)角落,未來(lái)腫瘤檢驗(yàn)的測(cè)序價(jià)格會(huì)更低,也就會(huì)有更多的患者會(huì)選擇采用更新的組群分析來(lái)支持醫(yī)生的判斷,更多的數(shù)據(jù)也就會(huì)涌入整個(gè)過(guò)程中,因此能為數(shù)據(jù)存儲(chǔ)、讀寫(xiě)、訪問(wèn)和處理提供全方位高性能支持的存儲(chǔ)系統(tǒng)也就必不可少。
其實(shí),這樣的系統(tǒng)不只是在轉(zhuǎn)化醫(yī)學(xué)領(lǐng)域必不可少,它對(duì)所有面臨存儲(chǔ)墻或數(shù)據(jù)墻挑戰(zhàn)的用戶來(lái)說(shuō)都是一劑良藥。從改造內(nèi)存/存儲(chǔ),以更優(yōu)的成本大幅擴(kuò)展內(nèi)存子系統(tǒng)的空間,到將大體量數(shù)據(jù)存儲(chǔ)在更接近算力、能夠?qū)崿F(xiàn)更高速數(shù)據(jù)讀寫(xiě)和持久化存儲(chǔ)……在高性能計(jì)算作用越來(lái)越凸顯的當(dāng)下,英特爾? 傲騰? 持久內(nèi)存及相配套的DAOS方案也必然會(huì)繼續(xù)大放光彩。
更多架構(gòu)師成長(zhǎng)計(jì)劃課程,歡迎訪問(wèn)英特爾架構(gòu)師成長(zhǎng)計(jì)劃平臺(tái): https://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69?domain=bizwebcast.intel.cn
【來(lái)源:大數(shù)據(jù)文摘 】