與生命賽跑!GPU加速華大基因大數(shù)據(jù)處理
藍(lán)調(diào) 發(fā)表于:13年07月03日 10:00 [原創(chuàng)] DOIT.com.cn
今年五月份,好萊塢紅星安吉麗娜-朱莉(Angelina Jolie)自曝已經(jīng)接受預(yù)防性的雙乳房切除術(shù),以降低罹癌風(fēng)險(xiǎn)。朱莉在給《紐約時(shí)報(bào)》的文章中寫道,自己之所以做手術(shù),是因?yàn)闇y(cè)試診斷結(jié)果顯示她帶有一個(gè)“缺陷”基因,名稱是BRCA1,這大大增加她患乳腺癌和卵巢癌的風(fēng)險(xiǎn)。從今年2月份開始直至4月27日,她的雙乳已經(jīng)全部切除。目前,她患乳腺癌的幾率已經(jīng)從87%下降到5%。
這條非常勁爆和震撼的消息,也讓我們從另一個(gè)角度深刻地體會(huì)到——當(dāng)生命受到威脅時(shí),美麗與性感都顯得那么不堪一擊。生命的有限,總是讓我們不得不在有生之年不斷地與其賽跑,試圖把生命的價(jià)值最大化。
值得慶幸的是,人類的基因研究已經(jīng)取得了非常大的突破,通過(guò)基因檢測(cè)的方法,已經(jīng)可以預(yù)測(cè)許多基因疾病的患病風(fēng)險(xiǎn),比如地中海貧血、唐氏綜合癥、基因致病的癌癥等等,通過(guò)盡早做預(yù)防就可以降低風(fēng)險(xiǎn)。
近日,記者來(lái)到了眾多基因研究成果的搖籃——華大基因,并采訪了華大基因高性能計(jì)算研發(fā)主管王丙強(qiáng),探索人類基因研究的秘密,以及當(dāng)前人類基因研究工作的挑戰(zhàn)。在采訪中,王丙強(qiáng)重點(diǎn)介紹了當(dāng)前華大基因研究工作中所遇到的三大挑戰(zhàn)以及華大基因的應(yīng)對(duì)方案:
挑戰(zhàn)一:數(shù)據(jù)量和計(jì)算能力的不匹配
一個(gè)細(xì)胞里有23對(duì)染色體,一個(gè)細(xì)胞的染色體拉開有兩米長(zhǎng),上面有30G個(gè)的基因序列。面對(duì)如此龐大的人類基因組序列數(shù)量,如何才能在有效的時(shí)間內(nèi)對(duì)基因序列進(jìn)行測(cè)試、比對(duì)和研究?
王丙強(qiáng)談道,測(cè)序儀全速運(yùn)轉(zhuǎn)每天所產(chǎn)生的數(shù)據(jù)超過(guò)10 TB。華大基因現(xiàn)在已經(jīng)有20個(gè)PB的存儲(chǔ)了,這些數(shù)據(jù)怎么計(jì)算?計(jì)算能力的匹配是個(gè)大問(wèn)題。
最初,華大基因試圖采用CPU來(lái)壓縮數(shù)據(jù)的方法來(lái)解決問(wèn)題,但是文件大小超過(guò)幾個(gè)GB甚至TB的時(shí)候,CPU就受不了。因此,華大基因開始考慮另一個(gè)方式——用NVIDIA Tesla GPU來(lái)加速數(shù)據(jù)的壓縮。通過(guò)與天津超算中心合作,把大部分重點(diǎn)的計(jì)算內(nèi)容都放到天河一號(hào)A上運(yùn)行。
挑戰(zhàn)二:臨床診斷要求高時(shí)效性
人類的基因中專有基因大概是小于5%,剩下90%都是非編碼的區(qū)域,非編碼區(qū)域就是奧秘所在。不同的人基因組99.9%是一樣的,只有剩下百分之零點(diǎn)幾不一樣,這才是真正值得關(guān)注的地方。如果基因變異發(fā)生在非編碼區(qū)域,可能會(huì)引起致命的后果。對(duì)于華大基因的基因研究工作來(lái)說(shuō),最基本的工作就是基因序列比對(duì),通過(guò)基因序列的比對(duì),來(lái)觀察出不同基因獨(dú)特的地方,是否有變異。
基因測(cè)序和比對(duì)也是臨床診斷中經(jīng)常用到的,如果說(shuō)兩個(gè)星期出診斷結(jié)果,這是很多患者所不能接受的。因此,基因測(cè)序用在臨床診斷時(shí),時(shí)效性要求較高。然而,人類基因組測(cè)第一個(gè)人的基因組用了13年的時(shí)間,投資30億美金。
為了提升分析速度,華大基因從2010年開始跟英偉達(dá)合作,把一些生物信息的軟件放到GPU上去運(yùn)行。
王丙強(qiáng)把基因測(cè)序過(guò)程分為三個(gè)步驟:第一步是用到測(cè)序儀進(jìn)行測(cè)序。并把測(cè)序儀測(cè)出的原始數(shù)據(jù)做處理,經(jīng)過(guò)GPU處理,然后傳到計(jì)算中心去分析處理。第二步和第三步是做基因序列的比對(duì),把人的基因與科學(xué)上比較準(zhǔn)確的人的基因組作比對(duì),看有哪些不同的地方。
據(jù)王丙強(qiáng)介紹,在第二步和第三步的過(guò)程中,華大基因都用到了NVIDIA GPU進(jìn)行加速。
在NVIDIA Tesla平臺(tái)上,設(shè)計(jì)開發(fā)了針對(duì)基因信息數(shù)據(jù)的高效壓縮工具,同時(shí)針對(duì)造成分析瓶頸的計(jì)算任務(wù),如序列比對(duì)、變異檢測(cè)等基本工具,利用GPU技術(shù)進(jìn)行加速,從而提高分析效率,并降低數(shù)據(jù)存儲(chǔ)和計(jì)算分析的成本。
王丙強(qiáng)舉例說(shuō)明了GPU對(duì)于基因研究所起到的加速作用,如果人的DNA上有一個(gè)點(diǎn)發(fā)生基因突變,過(guò)去在自己的計(jì)算中心做,需要好幾年才能完成,搬到天河一號(hào)上以后,通過(guò)NVIDIA Tesla GPU加速,只要5個(gè)多小時(shí)就能完成。
挑戰(zhàn)三:軟件和人才
軟件一直以來(lái)都是高性能計(jì)算非常關(guān)鍵的一個(gè)部分,計(jì)算能力再?gòu)?qiáng),如果軟件層面無(wú)法充分調(diào)用這些計(jì)算資源也是枉然。
在基因研究領(lǐng)域,最重要的兩個(gè)算法就是——海量數(shù)據(jù)的壓縮技術(shù)、序列對(duì)比和尋找基因變異。
數(shù)據(jù)壓縮方面,按照基因數(shù)據(jù)的特點(diǎn),采用以列為主的分塊壓縮方式,NVIDIA針對(duì)Tesla GPU設(shè)計(jì)了一組壓縮算法,以常用的FASTQ和SAM格式為例,相比使用gzip或bzip2壓縮,壓縮速度可達(dá)到10倍的性能提升。減少了處理時(shí)間,也間接提高了數(shù)據(jù)傳輸效率,降低存儲(chǔ)成本。
序列比對(duì)和尋找基因變異基因研究和臨床醫(yī)療應(yīng)用中兩個(gè)重要的分析步驟。兩者也是主要的計(jì)算瓶頸,特別在臨床應(yīng)用上具有更高的時(shí)效性要求。為此,借助NVIDIA Tesla平臺(tái),開發(fā)了應(yīng)用于序列比對(duì)的SOAP3/SOAP3-DP,以及分別用于個(gè)體和群體基因變異分析的GSNP和GAMA。
SOAP3/SOAP3-DP設(shè)計(jì)了新的索引數(shù)據(jù)結(jié)構(gòu),針對(duì)Tesla GPU架構(gòu)做了充分優(yōu)化,性能是其它主流軟件的數(shù)十倍,并且具有更高的準(zhǔn)確率和比對(duì)率。解決了基因研究中最基本的分析瓶頸,同時(shí)提高了后續(xù)基因變異分析的準(zhǔn)確度。
GSNP與其前身相比,采用稀疏表達(dá)格式優(yōu)化數(shù)據(jù)結(jié)構(gòu),同時(shí)運(yùn)用Tesla GPU實(shí)現(xiàn)高通量數(shù)據(jù)并行,原來(lái)處理一個(gè)人的數(shù)據(jù)需要三天以上的時(shí)間,GSNP僅需2小時(shí)左右,從而使得個(gè)體變異檢測(cè)初步達(dá)到快速臨床應(yīng)用的要求。
GAMA引入GPU的并行計(jì)算技術(shù)對(duì)多個(gè)位點(diǎn)進(jìn)行處理,加速計(jì)算過(guò)程。五百人規(guī)模計(jì)算分析,用普通計(jì)算機(jī)需要超過(guò)4年時(shí)間才可能完成,如果將計(jì)算在多塊GPU上并行進(jìn)行,可以使計(jì)算時(shí)間縮短到數(shù)小時(shí)。這一效率的提升使得生物學(xué)家可以加快解析基因變異與疾病關(guān)系的步伐。
最后,王丙強(qiáng)談到了人才招聘的相關(guān)問(wèn)題。他表示,目前GPU計(jì)算的人才招聘還是存在一定困難,但是他相信,隨著學(xué)校相關(guān)課程的開設(shè),以及GPU應(yīng)用的越來(lái)越廣泛,這方面的人才也會(huì)越來(lái)越多。
附圖:
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.