古DNA是指從古代人類和動物遺骸以及古生物化石中提取的古代生物分子。把古代DNA數(shù)據(jù)同現(xiàn)代基因庫中的數(shù)據(jù)資料相結(jié)合,便可以構(gòu)建出某一生物門類的系統(tǒng)發(fā)育樹,從而進一步探討人類的演化與遷移、民族融合、早期農(nóng)業(yè)發(fā)展、動植物的家養(yǎng)與馴化過程等重大問題。
古DNA研究需要經(jīng)過提取、擴增、測序等步驟,比現(xiàn)代DNA研究要難得多。特別是提取DNA分子非常困難,因為古生物沒有特別的存儲條件,在自然環(huán)境下,DNA完好地保存下來并不容易。DNA儲存在細胞核內(nèi),生物體在死亡過程中,細胞就會逐漸發(fā)生自溶,DNA很快會被降解。另外,在高溫和潮濕的條件下,DNA自身也容易發(fā)生水解、斷裂。同時,即便有細胞保存下來也會碰到其它微生物的進駐,所產(chǎn)生的酶類也會把原細胞內(nèi)的DNA破壞掉;因此,一般死亡的動物和人的遺體,DNA很難完整保存下來。
這些原因使得古DNA基因序列片段比現(xiàn)代DNA更短,導致古DNA測序比現(xiàn)代DNA也要更復雜。不僅讀取、比對的數(shù)據(jù)量更大,測序之前還需要去除DNA片段兩端的接頭序列,進行數(shù)據(jù)清洗與處理流程。
中國首座考古DNA實驗室如何解難題?
為了更好地保護中國基因資源,推動中華民族基因研究,1998年,吉林大學考古系與生命科學學院合作開展了有關(guān)古DNA方面的研究工作,由此中國第一座“考古DNA實驗室”落成。邊疆考古研究中心人類學實驗室與考古DNA實驗室合作攻關(guān)重大研究課題,取得了多項全國乃至全球領先的研究成果。
隨著DNA考古研究的逐步深入,考古DNA實驗室已有超過萬例的古人類、古動植物樣本,數(shù)量位居全國第一,建立我國邊疆地區(qū)古代DNA基因庫的時機日益成熟。但樣本數(shù)量增加也帶來了新的難題,原有的計算設備已難以在短時間內(nèi)完成大量的基因測序數(shù)據(jù)處理工作。全基因組樣本分析(WGS)與全外顯子組樣本(WES)分析是目前DNA研究的不可或缺的兩大分析流程。然而,使用當前以CPU為基礎的計算架構(gòu)開發(fā)的GATK Best Practices工作流程,需要數(shù)天甚至數(shù)周才能完成單個個體的基因組變異識別。
此外,古DNA基因序列片段更短導致數(shù)據(jù)處理量更大,對計算力的要求也更高。數(shù)據(jù)清洗、測序過程中,需要用到非常多的不同于現(xiàn)代DNA測序的應用軟件,如何實現(xiàn)這些應用軟件的快速移植與開發(fā)也是一大挑戰(zhàn),影響古DNA的研究速度。
“我們之前一直用臺式工作站做古DNA的測序數(shù)據(jù)處理,一般完成一次古人類的全基因組樣本分析需要耗時至少兩周,過程中還要面臨宕機帶來的處理流程中斷風險。按這種效率,我們要建立邊疆地區(qū)古代DNA基因庫幾乎是一個不可能完成的任務。”吉林大學邊疆考古研究中心副主任蔡大偉教授介紹說,“但是,這個問題必須盡快解決,古DNA研究一刻都不能耽誤”。
浪潮為解決這一難題提供了新思路,作為中國AI計算的領軍企業(yè),浪潮專門為基因測序開發(fā)了FPGA加速計算方案,FPGA具有可編程、并行計算、低延遲的優(yōu)勢,能夠為基因測序、語音識別、視頻處理、風險管理等AI和HPC場景提供強大的加速。經(jīng)過嚴苛測試和全面考察,吉林大學考古學院決定和浪潮合作,將FPGA技術(shù)運用到古DNA基因測序中,打造我國DNA考古領域的首個FPGA基因測序加速應用方案。
提速39倍 基因測序處理速度實現(xiàn)飛躍
新的基因測序加速計算方案采用了浪潮研發(fā)的F10A FPGA加速卡作為核心計算模塊,集成了峰科的GATK基因處理軟件。浪潮F10A是目前業(yè)界支持OpenCL的最高密度、最高性能的FPGA加速設備,尺寸為半高半長功耗僅35W,可以適用于數(shù)據(jù)中心、邊緣及桌面等各種復雜計算環(huán)境,每瓦特性能達到42GFlops,可以加載專業(yè)的軟件算法庫。集成的峰科的GATK基因處理軟件與標準生物信息學分析工具完全一致,包括GATK Best Practices的所有流程,如BWA、picard和GATK。它完全依照原軟件模型,調(diào)用命令與原版本一致,中間產(chǎn)生與原樣本一致的中間結(jié)果文件,方便用戶使用和調(diào)整。
浪潮F10A加速卡
測試顯示,搭載浪潮FPGA基因測序加速計算方案可在9.64 小時內(nèi)完成全基因組分析,48分鐘完成全外顯子組分析,相比基于CPU的方案,基因數(shù)據(jù)處理速度提升39倍。
目前,基于新的基因測序加速計算系統(tǒng),吉林大學考古DNA實驗室的科研工作者正在對我國北方地區(qū)的草原游牧民族,如匈奴、東胡、鮮卑、烏桓、契丹、蒙古等諸族的人骨以及出土的動植物進行古DNA的提取和研究工作,并開展我國新疆地區(qū)古代“絲綢之路”沿線各民族相互關(guān)系、人群間的遷徙及混雜過程、經(jīng)濟文化生活、自然環(huán)境與人類相互關(guān)系等相關(guān)研究,不斷為古代歷史、文化、民族研究提供新的資料,開拓新的領域。如蔡大偉教授及其團隊正在攻關(guān)國家社會科學基金重大項目“古動物DNA視角下的絲路文化交流研究”,從古動物DNA入手,還原絲路沿線古代動物群體起源與擴散的歷史過程,揭示絲綢之路上東西文化交流的歷史細節(jié)。