中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生

 “這一切的背后,都是大數(shù)據(jù)的價值再現(xiàn)。顯然,大數(shù)據(jù)對人類的影響是巨大的?!?0月21日,在以“智算賦能 · 共贏未來”為主題的2021 CCF全國高性能計算學術年會上,中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生以多個實例做了說明。

“通過大數(shù)據(jù)的解析,人類對核酸疫苗和核酸藥物有了充分的認識,從而推動了核酸研究的發(fā)展,整個生物醫(yī)藥進入了‘核酸時代’。也為未來出現(xiàn)新的烈性傳染病、烈性病毒的治療提供了很好的經(jīng)驗?!标悵櫳菏空f。

大數(shù)據(jù)對健康和疾病治療和預防的巨大作用

美國知名影星安吉麗娜·朱莉(Angelina Jolie)誕生于乳腺癌家族。這個家族的女性到了一定年齡就會因罹患惡性乳腺腫瘤去世。早期一直無法獲知病因,后來采用大數(shù)據(jù)測量了遺傳密碼后發(fā)現(xiàn)原因是基因BRCA1的突變,意味著發(fā)生癌癥的概率是正常人的100倍。不幸的是,Jolie在檢測后的基因變異呈陽性。盡管她才39歲,尚未查出癌癥,但她毅然決定切除部分女性器官以及當時完全正常的雙乳。雖然不能保證身體其他部位不會發(fā)生癌變,同時手術也會帶來巨大的長期副作用,但從此她終身不必再為罹患乳腺癌擔憂了,在這個方面,她多少算是有一些幸運。

年近9旬的美國前總統(tǒng)吉米卡特(Jimmy Carter)在體檢時發(fā)現(xiàn)罹患了晚期黑色素瘤,這種皮膚腫瘤中惡性程度最高的癌癥極易出現(xiàn)轉(zhuǎn)移。事實上,Carter總統(tǒng)罹患的這種腫瘤已經(jīng)同時向肝腦轉(zhuǎn)移。大數(shù)據(jù)檢測精準發(fā)現(xiàn),該腫瘤一個非常重要的微環(huán)境的變化十分契合剛剛研制出的抗原。只用五個月的時間對癥治療,原發(fā)腫瘤不僅僅徹底消失,所有的轉(zhuǎn)移灶也不見了,身上再也找不到任何腫瘤細胞。依賴于大數(shù)據(jù)精確的測量和判斷,卡特現(xiàn)在還是很好的活著。

這樣的例子不勝枚舉。

人類遺傳密碼的破譯,意味著生物醫(yī)學在大數(shù)據(jù)時代,不僅僅可以使得疾病得到了精準預測、精準的用藥和有效的治療,更重要的是還會推動生物醫(yī)學發(fā)生本質(zhì)變化,使得整個醫(yī)療體系實現(xiàn)了對全民從出生到死亡全生命周期科學診斷、治療、健康提供的保障。

這樣的健康體系與現(xiàn)有體系的本質(zhì)區(qū)別,必然引起國家相應法律法規(guī)、藥物管理體制、社保制度等一系列的法律法規(guī)的變化,最終推動大數(shù)據(jù)相關生物醫(yī)藥產(chǎn)業(yè)發(fā)展;發(fā)達國家包括美國、歐盟、英國、日本都建立了針對大數(shù)據(jù)驅(qū)動的精準醫(yī)學的計劃和執(zhí)行。據(jù)估計,該產(chǎn)業(yè)規(guī)模將達到萬億美元的數(shù)量級。

但是,這一市場并非唾手可得的。

從大數(shù)據(jù)中掘金,存儲面臨的挑戰(zhàn)與對策

早期健康醫(yī)療數(shù)據(jù)無非是血壓、血脂等一些簡單的數(shù)值,后來升級為各種醫(yī)學影像,數(shù)據(jù)量不斷加大。

隨著數(shù)據(jù)采集手段的豐富,如手環(huán)等可穿戴設備也成為記錄生理指標的工具,過去不常見的數(shù)據(jù)也都變成了生物醫(yī)學相關的大數(shù)據(jù),如電子病歷以及超聲、CT這樣的影像,微生物、大氣中的霧霾、水文中的化肥農(nóng)藥,以及本地輻射等等相關信息,都成為了大數(shù)據(jù);特別是,遺傳密碼的破譯,使得與生命健康相關的數(shù)據(jù)那就成數(shù)量級的增加。如新冠病毒核苷酸的鏈只有29903個,而人類遺傳密碼是3乘以10的九次方。

在數(shù)理特征方面,生物醫(yī)藥大數(shù)據(jù)多尺度、高維度、異質(zhì)化,而且是動態(tài)實時的,其作用方式不像物理和化學體系那樣的標量,而是相量、非線性的。

中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生

無論是生物醫(yī)學、基因工程,都涉及到大量的數(shù)據(jù),數(shù)據(jù)價值的挖掘離不開傳輸、存儲和分析等環(huán)節(jié)。陳潤生院士表示,數(shù)據(jù)存儲永遠是計算中很重要的一個話題。

數(shù)據(jù)一定要保存一段時間,是為了進一步的驗證、為了跟其他數(shù)據(jù)來比較。從早前簡單的數(shù)值,到如今一個人的遺傳密碼達到3×10的9次方,大量爆炸性增加的數(shù)據(jù),對于更好的分析,作用十分重大,所以一定要儲存。

如此大量級的數(shù)據(jù)的儲存,對介質(zhì)要求也很高,一是要求能夠穩(wěn)定可靠,二是要求能夠容量大、存儲密度高,三是在存儲和提取的過程當中能耗盡量的小,等等。

對存儲方面的需求,不只是來自遺傳密碼和基因工程方面,整個計算領域也有相同的需求。

為了化解上述難題,生物學界也在考慮采用DNA存儲即用生物大分子存儲方式來有效地保證上述目標的實現(xiàn)。作為一種技術變革,生用物分子來作為存儲和計算也是人們正在研究的一個很重要的方向,雖然可能還需要數(shù)十年的探索和努力。

陳潤生院士指出,存儲和計算機的發(fā)展步調(diào)是一致的。當前馮諾依曼架構(gòu)正面臨著變革,三納米樣機已經(jīng)問世,一納米也正在研究中,但是再向前困難就越來越大了,因為物理本質(zhì)決定的介質(zhì)容易被熱擊穿。所以,量子計算、神經(jīng)計算、DNA計算已經(jīng)成為下一步關注的熱點。

高性能計算與生物醫(yī)學的融合:化解大數(shù)據(jù)的建模與挖掘難題

從早期的遺傳密碼,到細分的基因組,蛋白組、表觀組、代謝組等一個個新的組學誕生,生物領域在不斷拓展,數(shù)據(jù)的量也在不斷增加,數(shù)據(jù)的形式與內(nèi)涵也越來越豐富,生物大數(shù)據(jù)的應用范圍也越來越豐富。

大數(shù)據(jù)的建模、挖掘也是當前生物醫(yī)學領域面臨的棘手問題。陳潤生院士指出,這有賴于高性能計算和計算機方面領域的科學家共同的支援和幫助:“越來越多的信息挖掘都需要計算,需要更多的高性能計算提供更多的算法、算力;而高性能計算與生物醫(yī)學結(jié)合已經(jīng)成為趨勢,并且會越來越緊密?!?/p>

在陳潤生院士看來,高性能計算和生物數(shù)據(jù)的解析是一個共同學習,互相了解、互相滲透、交叉融合以促進實際問題解決的過程,需要兩個領域的科學家能夠深度了解彼此,而更好的方向是培養(yǎng)出新一代的科學家,這些科學家既是高性能計算的專家,又是生物大分子生物組學領域知識的專家。

生物數(shù)據(jù)量越來越大,內(nèi)涵越來越多,挖掘其中的知識就需要合適的方法。人工智能就是其中之一。

在生物大分子結(jié)構(gòu)預測中,至少有兩個領域為人工智能或深度學習技術展示了應用價值。一是結(jié)構(gòu)預測,類似AlphaFold2這樣的技術可以很好地預測蛋白質(zhì)的結(jié)構(gòu),精度達到了實驗的90%以上,為諸如核酸疫苗、核酸藥物的設計開拓了很好的前景;二是醫(yī)療影像學方面,用人工智能構(gòu)建的影像系統(tǒng)超過任何一個獨立的醫(yī)生評估的準確度,為精準治療提供更好的工具。

“人工智能在生物研究工作中發(fā)揮了很大的作用,展示了非常美好的前景?!标悵櫳菏勘硎荆骸半m然人工智能的模式、理論、技術還有待于進一步完善和發(fā)展,但對生物醫(yī)學科研工作者而言,構(gòu)造一個良好的學習集是充分發(fā)揮人工智能作用非常重要的環(huán)節(jié)。”

大數(shù)據(jù),推進生物醫(yī)學更加蓬勃發(fā)展

以大數(shù)據(jù)、高性能計算、人工智能等為代表的信息技術在推進生物醫(yī)學的發(fā)展方面還存在巨大的潛力。

據(jù)介紹,在基礎研究工作的論文數(shù)量、總引數(shù)量、重要論文基礎數(shù)量等方面,我國已經(jīng)超過了美國,也遠遠超過了德國、日本和英國。

如果能將基礎研究成果有效轉(zhuǎn)化、結(jié)合大數(shù)據(jù)挖掘開發(fā)新一代藥物,很可能會取得一大批國際領先和創(chuàng)新的成果。

中國科學院院士、中國科學院生物物理研究所核酸生物學院重點實驗室學術委員會主任陳潤生

伴隨著遺傳密碼的破譯,生物醫(yī)藥領域正在發(fā)生變革,而變革的源頭正是以遺傳密碼為代表的大數(shù)據(jù)。陳潤生院士深信:“在更多其他領域科學家的介入后,這個領域一定能夠得到更加蓬勃的發(fā)展,為人類造取更大的福利!”

分享到

xiesc

相關推薦