袁紹龍 發(fā)表于:13年10月31日 00:54 [原創(chuàng)] DOIT.com.cn
2013年10月31日,桂林。HPC China 2013大會進入到第三天。在第三天的會議中,來自中國科學院高能物理研究所的研究員孫功星帶來了主題為《從大數(shù)據(jù)到新發(fā)現(xiàn)--高能物理大數(shù)據(jù)存儲、處理及挖掘》的主題報告。孫功星研究員認為在發(fā)現(xiàn)希格斯粒子這個過程中計算機的作用非常重要,計算機在未來的高能物理學中將繼續(xù)發(fā)揮重要作用。另外,通過把Hadoop架構(gòu)引入到高性能物理計算領域,將有助于大幅提升處理與分析的性能。
圖一:中國科學院高能物理研究所的研究員孫功星發(fā)表演講
圖二:高能物理需要大量的計算資源,并且會產(chǎn)生大量的數(shù)據(jù)。
孫功星表示,在高能物理領域的大數(shù)據(jù)處理過程主要包括三個方面:首先是Data Recording,Raw Event從探測器獲取,以二進制格式記錄的探測器信號,再由計算機產(chǎn)生模擬實驗的蒙特卡羅模擬數(shù)據(jù),將物理信號數(shù)字化;然后是Data Processing,讀出Raw/MC Raw,處理產(chǎn)生相關(guān)物理信息,如動量、對撞頂點等;最后就是Data Mining,由上千個屬性組成的DST Event文件,提供物理學家進行分析,并最后產(chǎn)生物理結(jié)果。
圖三:高能物理的數(shù)據(jù)處理過程。
圖四:物理分析。
孫功星研究員表示,物理學家通過大數(shù)據(jù)處理三個過程,在里面找到有興趣的數(shù)據(jù),F(xiàn)在我們開始嘗試采用Hadoop本地系統(tǒng),采用Hadoop方案之后,對于網(wǎng)絡、磁盤陣列的需求減少很多。當然在高能物理領域的Hadoop應用跟互聯(lián)網(wǎng)有所不同,因此我們也有針對性,特別是在IO方面做了一些工作,以適用Hadoop架構(gòu)。通過Lustre和Hadoop架構(gòu)的對比,我們進行分析測試后發(fā)現(xiàn),在處理性能和文件重建等方面都有著大幅的性能提升。過去傳統(tǒng)的方式就是拿數(shù)據(jù)過來分析,扔掉不重要的數(shù)據(jù),然后再拿數(shù)據(jù)進行分析,再扔掉不重要的數(shù)據(jù),過程比較繁瑣。通過Hadoop架構(gòu),我們將TAG數(shù)據(jù)放入到Hbase中,TAG數(shù)據(jù)則是非常小的,利用Hadoop的確是能大幅提升性能。
圖五:在MapReduce下面運行C++
圖六:測試對比結(jié)果。
圖七:將TAG數(shù)據(jù)放入Hbase。
圖八:測試性能結(jié)果。
最后,孫功星研究員認為高能物理領域是大數(shù)據(jù)、數(shù)據(jù)挖掘的技術(shù),具有完善的數(shù)據(jù)挖掘軟件。未來LHC升級將會產(chǎn)生幾倍于現(xiàn)在的數(shù)據(jù),給高能物理計算帶來更多挑戰(zhàn),因此現(xiàn)在的趨勢就是探索新型的計算機體系結(jié)構(gòu)、高性能計算機結(jié)合的方案。