Intel Xeon Phi協處理器家族,5110P和定制產品SE10P采用被動散熱,適用于數據中心;3100系列有被動散熱和主動散熱兩種方案,后者適合于任何環(huán)境,包括工作站
雖然在消費市場上遭遇ARM的強勢挑戰(zhàn),公司市值亦首度被高通超越,但英特爾還有企業(yè)級市場作為堅強后盾。至強家族在服務器和存儲市場不斷蠶食RISC的領地,同屬x86陣營的AMD也被逼得向ARM遞上“投名狀”。
想想十多年前,還是RISC統治數據中心,x86把持桌面計算?,F在形勢幾乎反轉,前端的消費者市場,ARM攜智能手機和平板市場上的成功威脅PC,并伺機進攻后端的企業(yè)級市場,欲重復當年x86的逆襲故事。正所謂“兵無常勢,水無常形。”同一時代的技術往往沒有絕對的優(yōu)劣之分,看誰更善于利用形勢,與時俱進,才是長盛之道。
Intel Xeon Phi 協處理器以PCI Express(PCIe)插卡的形式配合英特爾至強(Xeon)CPU使用
要說在企業(yè)級市場,英特爾還是很趕潮流的。去年云計算,今年大數據,不是最早鼓吹的那個,但也不算落伍。按理,云計算和大數據能夠成為大眾話題,基礎設施層面上,離不開x86的遍地開花,可是,每當英特爾往大數據上靠,總有人感覺不習慣。
英特爾表示,Xeion Phi 協處理器內核在P54C基礎上加入了很多功能,包括64位支持。現在內核加上L2緩存,只有不到2%是x86成分(x87 Logic)
記得今年7月第二屆大數據世界論壇,有記者朋友走進會場,看到Intel的Logo,驚呼“英特爾和大數據有什么關系啊?”遂在微博上引發(fā)一番Hadoop知識普及的大討論(當然,不能把Hadoop與大數據劃等號)。上個月,英特爾在介紹其至強融核(Xeon Phi)處理器時,將HPC(高性能計算)與大數據聯系到一起,又引起了同行的反彈。
我寧愿把這理解為對近來業(yè)內談及趨勢時必稱“大數據”的反感。如果拋開這一層,不消英特爾多說,前一陣與幾位圈中好友私下討論時,已然認同以Hadoop為代表的大數據應用,與高性能計算在模式上頗有共通之處——高度并行,從計算到I/O。
從計算到存儲,大數據與高性能計算很相似
隨后,在10月底公布的中國HPC TOP100排行榜上,前10名中,有4個安裝在互聯網服務提供商,而在總體上,應用于互聯網服務的系統多達35套,占35%,在各行業(yè)中保持第一,比例有大幅度躍升。
我們不是說,互聯網服務就意味著Hadoop,或者大數據,但起碼它們的應用類型更為接近,而與科學計算等“傳統意義”上的科學計算距離較遠。一定程度上,互聯網服務/大數據應用拓展了HPC的勢力范圍,幫助后者從象牙塔走出來,滲透到普通人生活的方方面面。
順著這個話頭說開去,我們正處在一個加速轉向并行處理的時代。CPU強調多核和多線程自不必說,硬盤驅動器(HDD)面臨被固態(tài)盤(SSD)部分乃至全部取代的危險,也體現了同樣的道理。英特爾在為SSD造勢時,給硬盤列的一大罪狀就是,十年間性能只提高了1.3倍,遠遠落后于CPU的進步幅度。對硬盤的評價有點兒偏頗,這里不細究,但是抓住了關鍵,即硬盤多年來都是同一時刻只有一個磁頭工作,并行度很差,改善性能基本只能靠加快機械部件的運轉速度,所以效果很有限。SSD則不然,雖然每個閃存芯片的性能和容量都不算高,但可以多個芯片(控制器多通道)同時讀/寫,具有很高的并行度,性能很容易就甩開硬盤好幾條街。
HPC市場的年復合增長率(CAGR)接近于云
雖然性能幾乎不隨著容量增長,但是硬盤在容量和價格上的優(yōu)勢仍非SSD所能企及。硬盤的并行度不行,那就盡量避免讓它同時干兩件事(減少隨機訪問)。譬如說,我的辦公環(huán)境是在虛擬機里運行Outlook,關閉Outlook和關閉虛擬機,都要向硬盤上大量寫入數據。如果執(zhí)行了關閉Outlook的動作,不等數據文件寫完,立刻關閉虛擬機,那么兩個寫操作就有部分重合,關機時間會很長;如果先等待Outlook完全關閉,再關閉虛擬機,那么總共花費的時間,能夠明顯的縮短。也就是說,在一個缺乏并行度的體系內,完全串行的執(zhí)行兩個任務,所需時間要比在兩個任務之間來回切換,要來得短。(1+1<2?)
硬盤的并行能力雖差,但是多個硬盤同時工作,就能夠兼顧并行訪問和大容量,存儲系統(RAID)和Hadoop就是這么做的。
TACC的Stampede系統在新鮮出爐的HPC Top500排行榜上排名第7,得益于數千塊定制的Xeon Phi 協處理器SE10P
如果需要極致的并行訪問能力,就像剛剛過去的雙11淘寶數據庫,一天下來僅成交的交易就上億,離了高性能的PCIe SSD,是無法想象的。
以上想說明什么?并發(fā)度,組合。硬盤不是為并發(fā)訪問設計的,但在順序訪問時,輸出(throughput)并不比SSD差太多,且在容量和價格上占有優(yōu)勢。對并行度要求不太高的時候可以用硬盤組合,隨著并行訪問要求的提高,引入SSD,乃至完全依靠SSD。
Intel Xeon Phi 協處理器SE10P
但是,在Hadoop系統中,硬盤仍然占據主流,SSD相對少見,每個節(jié)點配的內存容量也不是很大——雖然商業(yè)領域在倡導“內存計算”?;ヂ摼W行業(yè)的文化是盡可能不依賴昂貴的硬件,利用整體架構來分布任務。與金字塔尖上的超級計算系統相比,他們屬于平民版的HPC,講究投入產出比,可復制性更高。
我在TACC上機操作,可以看到Intel Xeon Phi 協處理器SE10P的信息,包括61個內核及8GB GDDR5內存,注意下面TACC Stampede和MIC協處理器的顯示
現在回過頭來說計算。x86 CPU的并行度非硬盤可比,但在高度并行化設計的GPU面前,差距又很明顯。剛剛奪得新一期全球Top500榜單頭名的Titan系統,制勝法寶便是Nvidia Tesla K20X GPU加速芯片。
新鮮出爐的Top500榜單前10名,注意第1、7和8名
得克薩斯高級計算中心(TACC)的Stampede系統,采用戴爾PowerEdge C8220X,至強E5-2680 8核CPU與Intel Xeon Phi協處理器的混合系統,小勝兩年前的頭名——也是CPU + GPU的天河1號A,但與Titan系統還差得遠。
TACC的Stampede系統采用了6400臺戴爾PowerEdge C8220X刀片服務器,每一個刀片配備了2個8核Intel Xeon E5-2680處理器和32GB內存
英特爾自家的GPU是薄弱環(huán)節(jié),又不可能坐視甚至扶植AMD或NV的GPU做大,反對CPU+GPU的混合系統是很自然的。英特爾的方案是,以Xeon Phi作為協處理器,替代GPU,輔助CPU處理高度并行的任務。GPU派攻擊協處理器的性能,英特爾則強調引入GPU需要大量重新編程,通用性不好。這方面口水戰(zhàn)甚多,我對HPC的了解有限,更非編程專家,這里就不拾人牙慧,主要探討下英特爾的做法。
戴爾PowerEdge C8220X刀片服務器
首先,英特爾強調至強E5是HPC的基石。這里面又有好幾層意思,一是x86 CPU中,E5占據明顯優(yōu)勢。CPU + GPU,后者再給力,也不能放任前者拖后腿。AMD的Opteron雖然內核數更多,但總體上處于下風。另外,至強E5平臺集成了PCI Express,摟草打兔子,配合PCIe接口的Xeon Phi,可以進一步縮短延遲。
在英特爾宣布將要推出Xeon Phi(當時稱MIC)協處理器之后,Nvidia方面撰文稱“沒有免費的午餐”(指MIC運行x86程序無需更改代碼是無稽之談)。英特爾并行編程傳播總監(jiān)James Reinders不無幽默地回應道,并行編程很重要,但沒人能獲得免費的午餐。
英特爾與Nvidia一樣很清楚,目前的很多程序都是串行編程,需要盡可能的并行化,才能充分發(fā)揮GPU或Xeon Phi協處理器的并行計算能力。不過,James Reinders強調,并行化編程對挖掘CPU的潛力也很有幫助。
至強CPU采用為Xeon Phi 協處理器開發(fā)的并行化代碼后,性能可有上百倍的提升
他舉了一個SAXPY(Scalar Alpha X Plus Y,純量乘法與矢量加法的組合,是并行向量處理器中常用的計算操作指令)的例子,經過并行化的代碼運行在Xeon Phi上,340.6倍于運行串行化代碼的6核至強E5-2600。但當至強E5運行的代碼也經過并行化編譯之后,這個倍數(Xeon Phi對E5-2600)就急劇下降到2.3。
單Xeon Phi 協處理器(右側)對雙至強E5(左側)的性能提升
英特爾旨在說明,像Xeon Phi這樣的高度并行設備需要高度并行編程,而至強E5這樣的(普通并行)處理器也可以從中獲益。并行時代,本來就要并行編程。James Reinders拋出了一個問題:你想用同樣的語言、并行編程模型和類似的工具來滿足高度并行的需求么?
另一些情況下,Xeon Phi 協處理器帶來的性能提升可達10倍
TACC的Jay Boisseau認為,用戶都想不用付出(改變代碼)就獲得性能躍升,但當他們(為了提升性能)做了不愿做的事,還被鎖定在特定的硬件架構(指GPU)會怎樣?至強Phi在通用并行計算的每瓦性能上還是不好,但很大程度上解決了硬件特定編碼的問題,可以用Fortran、C、C++,編程不受限制。至強Phi運行串行應用會慢,所以要搭配至強E5工作。
總之,Xeon Phi結合了高級的性能和標準CPU編程模型的好處,這是Stampede系統選擇它與至強E5組合的主要原因。
至強CPU與Xeon Phi 協處理器搭配工作的幾種情況
每個用戶,選擇一個特定的解決方案,總有其充足的理由。至于不遠的將來,至強CPU與Xeon Phi協處理器的搭配,能否在Top500排行榜上擊敗CPU + GPU的組合,乃至登上王座,不是我能判斷出來的。
我的看法是,大數據雖然有被炒爛之虞,但英特爾將大數據作為并行計算的范例,甚至與HPC聯系在一起,未必只是心血來潮,亂搭熱門概念的順風車。Xeon Phi真正投入市場也要2013年初了,短時間內很難與在傳統HPC領域已有相當積累的CPU + GPU組合架構爭鋒(分走一塊市場還是可以的)??墒?,在范圍更為廣闊的大數據領域,特別是大量采用英特爾至強平臺搭建Hadoop集群的互聯網服務市場,Xeon Phi(較之GPU)在兼容性上的優(yōu)勢可能頗具吸引力。如果這個市場接受了英特爾的理念,也許會在(廣義的)HPC市場起到“農村包圍城市”的效果……
類似的事情,英特爾以前做到過,ARM正在做,未來?就交給未來吧,瞎猜就此打住。