国产精品一区二区av交换,中文字幕人成无码免费视频,永久免费av无码网站性色av,欧美一道本一区二区三区,樱桃熟了a级毛片

賴能和:SSD技術(shù)在海量地震數(shù)據(jù)處理中的應(yīng)用

淅西 發(fā)表于:14年07月31日 20:00 [原創(chuàng)] DOIT.com.cn

  • 分享:
[導(dǎo)讀]2014年7月31日,由DOIT傳媒和存儲在線主辦,戴爾、惠普、華為、IBM、因特爾贊助的2014中國閃存峰會在亮馬河飯店盛大開幕,回顧下午分會場一的存儲應(yīng)用分論壇中由中國石油東方地球物理公司研究院數(shù)據(jù)處理中心總工程師賴能和老師為我們帶來“SSD技術(shù)在海量地震數(shù)據(jù)處理中的應(yīng)用”的主題演講,下面是賴能和老師演講內(nèi)容介紹:

2014年7月31日,由DOIT傳媒和存儲在線主辦,戴爾、惠普、華為、IBM、因特爾贊助的2014中國閃存峰會在亮馬河飯店盛大開幕,回顧下午分會場一的存儲應(yīng)用分論壇中由中國石油東方地球物理公司研究院數(shù)據(jù)處理中心總工程師賴能和老師為我們帶來“SSD技術(shù)在海量地震數(shù)據(jù)處理中的應(yīng)用”的主題演講,下面是賴能和老師演講內(nèi)容介紹:

中國石油東方地球物理公司研究院數(shù)據(jù)處理中心總工程師賴能和老師演講現(xiàn)場

賴老師首先做了自我介紹,石油東方地球物理公司研究院工作時間長,1983年一直在做計算機這方面的工作。石油東方地球物理公司就是跟地球近地表,也就是在20公里的近地表差不多,給它做一些CT,把近地表的情況地下情況搞清楚。怎么做呢?實際上就是通過人工地震,通過發(fā)射地震波,向地下傳播以后,巖石、泥土、沙、石、水泥反射的系數(shù)不一樣,把這個反射回來,把信號接收的數(shù)據(jù)采集,然后進行處理。在40多個國家有機構(gòu),國外的營業(yè)額超過60%左右, 26000個員工,有9萬CPU核、80萬GPU核、超過35PB存儲。35PB就是保持這個量,運算能力達到2PFlops。公司是高端服務(wù)器。自己還做軟件開發(fā),體系裝備、制造,國內(nèi)國外還有很多數(shù)據(jù)中心,還有很多勘探床,一條勘探床好幾十個億。

然后分享的就是SSD技術(shù)在海量地震數(shù)據(jù)處理中是怎么應(yīng)用?為什么要用SSD?SSD用到哪些地方?解決什么問題?通過這個報告,讓大家了解三件事。第一、了解一下石油勘探進入了大數(shù)據(jù)時代。很多人都說大數(shù)據(jù)時代,什么是大數(shù)據(jù),各行真的不一樣,我們是結(jié)構(gòu)化數(shù)據(jù),確實很大。第二、海量數(shù)據(jù)對高性能計算帶來哪些挑戰(zhàn)和機遇?第三、針對海量數(shù)據(jù)會存在很多技術(shù)問題,包括軟件問題和硬件問題,還有很多算法問題,有哪些地方可以用SSD?為什么要用SSD?如果不用SSD行不行?當然是不行。

第一部分,油氣勘探進入大數(shù)據(jù)時代。要搞石油的,跟IT有什么關(guān)系? IT用的比例最多的就是在油氣勘探上面,IT和油氣勘探密不可分。計算機是我們找油找氣的核心。第一、我們要有強大的計算機,這個強大到什么程度?“天河一號”這樣的計算機。第二、還要有很精確的算法,就是反射的速度要搞清楚。第二、還有一個質(zhì)量很重要,這一口井打下去,非常貴。所以,計算機和油氣勘探是密不可分的,所以這是一個。第二、我們找石油就是通過地面,由車輛激發(fā)波,然后地下反射回來,產(chǎn)生數(shù)據(jù)。數(shù)據(jù)有多大?勘探車有,有24個氣槍同時發(fā)射,漫射回來。另外,現(xiàn)在計算機技術(shù)發(fā)展以后,存儲技術(shù)發(fā)展以后,勘探也有很大的變化,以前是一臺機器干活,效率太低了。大數(shù)據(jù)怎么來的?比如有十臺機器,二十臺機器同時在做,零點幾秒,或者幾秒鐘同時接收,然后分析,這是一個很大的難題。像這種采集方法,會對我們數(shù)據(jù)產(chǎn)生非常大的影響。一個小隊每天產(chǎn)生的數(shù)據(jù)7TB到10TB,沙特一天一個小隊的數(shù)據(jù)25T,當天晚上還要回到室內(nèi)倒出去,倒到另外的設(shè)備上,第二、還要把25T的數(shù)據(jù)處理,25T數(shù)據(jù)讀要花多長時間,還要處理,如果沒有問題,第二天天一亮接著施工,這個隊伍一耽誤就是上百萬的資金投入,所以這是大數(shù)據(jù)怎么來的。

很多人說大數(shù)據(jù)對油氣勘探有什么意義?我們做CT,我們搞石油也是一樣,采集的點數(shù)精度高,肯定計算量太大,所以我們也是一樣的,我們搞石油勘探,把點數(shù)加密以后,對提高成像,搞清楚地下構(gòu)造搞得更清楚了,看得清清楚楚。不能說百分之百,現(xiàn)在看得更清楚了,我們就可以看到,F(xiàn)在這個是300米一條線,在國外已經(jīng)達到50米的條線,新疆是500米左右,后續(xù)還有很多工作要做,新疆塔里木大沙漠里頭,是500米的條線。上面是常規(guī)的,后面是高密度的,這個常規(guī)的信號,信息的上下都沒有,高密度以后,全方位的信息都有了,來自各個方面的信息都很清楚,這樣對地下構(gòu)造肯定搞得很清楚。這叫寬方位的采集,把360度方向的信息全收集起來,把地下搞清楚。

常規(guī)的采集與高密度采集,整個地下構(gòu)造用大數(shù)據(jù)看得很清楚。包括地下哪個地方有油,哪個地方有水,有沙,有裂縫都搞得更精細了。這個代價就是要非常多的計算資源,要很多存儲。

第三、高密度,這種技術(shù),因為現(xiàn)在我們的勘探技術(shù)已經(jīng)有了,IT的成本也下來了,所以這種采集方法一種新的趨勢,在國外非常普及,數(shù)據(jù)量會越來越大。歐洲一個雜志的數(shù)據(jù)顯示,數(shù)據(jù)和以前比,道密度增加2500倍,現(xiàn)在幾百T的數(shù)據(jù)是很正常的,這是真正的大數(shù)據(jù)。

那么大數(shù)據(jù)對我們計算機,很多人說,數(shù)據(jù)要慢慢做。那么大數(shù)據(jù)只給你一點時間,時間不多。帶來哪些機遇和挑戰(zhàn)?一個就是計算資源不夠,我們現(xiàn)在計算機的技術(shù),目前我們國內(nèi)計算機的技術(shù)只能滿足也就是三年前的計算機的技術(shù)水平,遠遠不夠。我們現(xiàn)在為什么還要超算中心,后面每上一個臺階的算法都差好幾十倍,甚至上百倍的計算量,就是往上走,算法可能很多人學(xué)過數(shù)學(xué),渦輪方程,往上走一步,邊界系數(shù)加一個,多一項,那計算量是多很多很多了。

我們目前整個計算能力,計算技術(shù)還是遠遠沒法滿足油氣勘探這方面的需求,跟國外還是有點差距。我們幾萬多個CPU在國內(nèi)是最大的,斯倫貝謝是25萬核,我們才9萬核,還是有差距,所以跟國外的發(fā)達國家,全球最大的公司還是有差距。但是,我們目前來說,對解決我們國內(nèi)問題還是可以的。

再舉個例子,我每一個項目,第一個投入1000個CPU,做一步,40天,第二行,4096個CPU,做60天,8432個CPU做4天,9000多CPU還做7天。剛才說有一個算法,往前走一步,計算量增加很多。咱們做相機一樣,象素往上走一步,計算機芯片處理的速度就有很高的不穩(wěn)定。

第二、存儲,量非常大,每年十幾個P的存儲的增加,干什么用?比如50T的項目要把它完成至少要有1000T的裸容量給它,因為它有好幾步的迭代,所以這是非常可怕的事情。

第三、這種海量數(shù)據(jù)對我們的計算機,整個的一些特性也提出很多挑戰(zhàn)。我們這個挑戰(zhàn)一個就是我們現(xiàn)在的計算機的價格,處理海量數(shù)據(jù)肯定不靈,因為我們采取一些特殊的技術(shù),還要進行優(yōu)化配置。第二、機器把它用好不容易,怎么把它用好。還有那么大的存儲,不是每一家公司買來就能用,買來怎么整合好,怎么用好,不是那么簡單,幾千T的存儲數(shù)據(jù)在上面,數(shù)據(jù)丟了就完蛋了,我們對它的穩(wěn)定性,對它的管理,以及它怎么好用,對存儲提出很大的挑戰(zhàn)。第三、要解決存儲,像CPU很快,存儲還是相對慢的,怎么結(jié)果IO瓶頸問題地另外,按照過去的算法做,肯定不行,至少要多線程,計算并行,或者算法并行,這樣才能很快把數(shù)據(jù)處理完。另外就是能耗,這個能耗很厲害,我們一年電費好幾千萬。一萬T的存儲,多少電?但是因為每個機房的電是有限的,很多技術(shù)問題。所以,對我們高密度的系統(tǒng),一個是配置很高。

那么,剛才看到為什么油氣會造成大數(shù)據(jù),大數(shù)據(jù)對油氣勘探帶來什么新的機遇和挑戰(zhàn),肯定需要更高性能的計算機,機遇也來了,咱們挑戰(zhàn)是怎么解決這些問題。

下面我們跟大家分享一下。第一、我們要高配置,內(nèi)存、硬盤、散熱、五個128G的內(nèi)存,5T的盤在里頭,散熱不好根本不行,因為我的機器365天在那兒轉(zhuǎn),還不能出故障,這樣對它的高配置,特別是散熱要求非常高。第二、高帶寬,無阻塞,低延遲的萬兆以上的交換網(wǎng)。第三、存儲,就是高性能,可擴展,橫向擴展,另外就是并行存儲。第四、因為是海量數(shù)據(jù),它要做并發(fā)計算,還不是并行計算,大并發(fā),就是同時要發(fā)送幾千個作業(yè)上去,幾千個,機器要死了。第五、就是穩(wěn)定的大規(guī)模的并行處理系統(tǒng),就是一個文件進去,一個文件出來。

舉個例子,就是I/O密集型的,一個是網(wǎng)絡(luò)配置很高,另外配Xeon的存儲系統(tǒng),這是I/O密集型的,第二、計算密集型的,全靠CPU不行,肯定要加GPU等,盤都是有很好的盤,還有NVidia網(wǎng)絡(luò),這是第二個例子。

第三就是大存儲,大存儲跟小存儲區(qū)別很大,小規(guī)模的比如送十個作業(yè)的時候,大存儲,小存儲關(guān)系不大,看不出來。20個作業(yè)的時候,有差別了,大存儲就370億秒就做完了,小存儲要1000多秒,到50個作業(yè)并發(fā)的時候,就更大了,3000多秒,4000多秒,100個作業(yè)送上去的時候,是700秒。多花錢是有好處的,性能肯定不一樣,跟領(lǐng)導(dǎo)說清楚,不是便宜的東西就是好的,有些東西多花錢還是有好處的,其實貴帶來的是效益,要跟領(lǐng)導(dǎo)說清楚,都會同意買好一點的東西。

第四、我們剛剛說了海量數(shù)據(jù)處理對存儲并發(fā)作業(yè)要求很高。舉個例子,54T的數(shù)據(jù),同時發(fā)1400多個作業(yè),就是1400多個節(jié)點要對付他,你做你的,我做我的,做完結(jié)果再總結(jié),這是并發(fā)的要求高。

那么,SSD怎么起作用呢?我們舉個例子,數(shù)據(jù)量大了以后,計算機節(jié)點,單節(jié)點,包括服務(wù)器里的內(nèi)置盤非常大。舉個例子,你說我有單塊盤,花了137分鐘,我用SSD36分鐘就做完了,但是肯定不止這個速度,因為它這邊很多因素綜合,你要光從系統(tǒng)層級測試可能差別沒有那么小。這是I/O。

第二個就是算法,就是隨機存儲,存儲多了,用SSD盤,或者普通的盤有什么差別呢?從這個看到,SSD的盤性能肯定要超過其他友商的盤,SSD不到7個小時做完了,普遍盤要做12個小時。

第七個例子,SSD作為數(shù)據(jù)庫的節(jié)點,數(shù)據(jù)庫的存儲,數(shù)據(jù)庫都是隨機存取,非常多,尤其海量數(shù)據(jù)。所以,我們Oracle數(shù)據(jù)庫服務(wù)器都配一些卡,一個卡2.4T。另外就是算法,這個也是一個例子,數(shù)據(jù)量很小很小,普通盤子136秒,這個就是64秒就做完了,也就是兩倍多左右,這對我們解決一些特殊的應(yīng)用,算法還是非常有希望的。這個例子就是83T的數(shù)據(jù),156億總道數(shù)。這個要做18天,我用SSD盤三天多就做完了,每個行業(yè)都是優(yōu)先,特殊的一些算法,對它的應(yīng)用效果還是非常明顯。

最后一個就是用在海量存儲的加速器。這全部是最高端的存儲,其實這些存儲哪個都有優(yōu)缺點,怎么來解決呢?我們用加速卡,有些存儲它的I/O之做批量作業(yè)很快,但是一打命令就死了,加上加速卡以后,把這個問題解決了,F(xiàn)在做交付處理,像我們?nèi)陌偃送瑫r做交互處理,三四百人同時用這個機器,存儲加速卡還是起很大的作用,如果對作業(yè),像這種存儲,對作業(yè)影響不是太大,1800多秒,慢200多秒無所謂,但是300多秒,變成19秒就不一樣了。

我們另外一套存儲,我們也是加加速卡,這一套存儲2000T,做I/O ROM,他加了加速卡,加加速卡肯定是有效的,多掏一點錢,我們跟上面領(lǐng)導(dǎo)說,我買的就是最貴的存儲,就是這個設(shè)備,領(lǐng)導(dǎo)說你搞這一行的,得自己想辦法,別問我。那你就得琢磨去。通過做加速,通過混合,包括跟服務(wù)器,服務(wù)器這個層級的內(nèi)置盤和SSD盤,混合盤整體的應(yīng)用,我覺得這方面都是我們下一步要做的。比如并行軟件,對我們整個并行存儲性能的提升影響非常大。我們有非常多的例子,我們所有存儲都是并行存儲。

地震勘探我們已經(jīng)進入了一個高密度,大數(shù)據(jù)的時代。我們的計算量和計算量的一些算法會越來越大,復(fù)雜度也越來越增加,對我們的計算機一是要求穩(wěn)定性,第二、更大規(guī)模。第二、對我們計算機的配置要求越來越高,現(xiàn)在有效算法,都要三四百GB的內(nèi)存才能解決這個問題,這樣我們探討是不是要內(nèi)存的存儲,我們都在想辦法,對高性能的存儲,還有一個是對應(yīng)用軟件,針對我們一些應(yīng)用軟件的算法才有不同的存儲,來有效的提高我們整個生產(chǎn)的效率。我們相信以大容量、低功耗、穩(wěn)定的高性能并行存儲和SSD技術(shù)為解決海量地震數(shù)據(jù)處理提供了有利條件。通過這幾年的應(yīng)用,SSD用了四年多了,這樣對我們解決一些復(fù)雜的算法和海量數(shù)據(jù)起到了非常關(guān)鍵的作用!

[責任編輯:孫瑩瑩]
淅西
2014年7月31日,由DOIT傳媒和存儲在線主辦,戴爾、惠普、華為、IBM、因特爾贊助的2014中國閃存峰會在亮馬河飯店盛大開幕,回顧下午分會場一的存儲應(yīng)用分論壇中由計世資訊計算機系統(tǒng)研究部總監(jiān)丁震先生帶來的《大數(shù)據(jù)應(yīng)用催生閃存崛起》主題演講,下面是丁震先生演講內(nèi)容介紹。
官方微信
weixin
精彩專題更多
存儲風云榜”是由DOIT傳媒主辦的年度大型活動;仡2014年,存儲作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素,已經(jīng)成為了推動信息產(chǎn)業(yè)發(fā)展的核心動力,存儲產(chǎn)業(yè)的發(fā)展邁向成熟,數(shù)據(jù)經(jīng)濟的概念順勢而為的提出。
華為OceanStor V3系列存儲系統(tǒng)是面向企業(yè)級應(yīng)用的新一代統(tǒng)一存儲產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達到業(yè)界領(lǐng)先水平,很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計算等各種應(yīng)用下的數(shù)據(jù)存儲需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會
 

公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.