針對上海交大超級計算機π的現(xiàn)狀,戴爾公司進行了深入的研究與分析。

首先,在高性能計算領(lǐng)域,高效地將數(shù)據(jù)傳入和傳出計算節(jié)點至關(guān)重要,這通常會涉及到一些復(fù)雜的因素。超算系統(tǒng)能夠以極高的速度產(chǎn)生和使用數(shù)據(jù),存儲倘若不能跟上的話,必然會成為整個超算系統(tǒng)的瓶頸,再強大的計算能力也無從發(fā)揮。

其次,對上海交大這種科研任務(wù)重、計算需求極大的用戶來說,存儲的擴展必須被考慮進去,數(shù)據(jù)對性能和容量的需求會持續(xù)不斷地快速增加,因此新的存儲系統(tǒng)必須能做到彈性、有序的擴展,不斷提高存儲的吞吐量和性能,從而為整個超算系統(tǒng)提供有力的支持。

最后,上海交大高性能計算中心為全校各個院系提供服務(wù),人力資源相對緊張,不可能為管理和監(jiān)控復(fù)雜的存儲系統(tǒng)配備太多的管理員,因此新的存儲系統(tǒng)必須易于管理。

戴爾認(rèn)為,基于戴爾與英特爾在企業(yè)級Lustre 平臺(Intel Enterprise Edition for Lustre,簡稱IEEL),能夠完全滿足上海交大高性能計算中心的要求。該存儲解決方案使用Lustre這一領(lǐng)先的HPC開源并行文件系統(tǒng),這也意味著它具有良好的可用性和可擴展性。

安裝了IEEL的戴爾HPC存儲設(shè)備,專門面向那些需要部署完全受支持、易于使用、具有高吞吐量、能夠橫向擴展且經(jīng)濟實惠的并行文件系統(tǒng)存儲解決方案的學(xué)術(shù)和行業(yè)用戶,是一款能夠提供高性能和高可用的存儲系統(tǒng),此前在劍橋、華大基因等超算系統(tǒng)中均得到了良好的應(yīng)用。

值得稱道的是,該解決方案利用智能、豐富且直觀的管理界面(Intel Manager for Lustre,簡稱IML),大大簡化了所有硬件和存儲系統(tǒng)組件的管理和監(jiān)控。它在容量或/和性能方面易于擴展,從而為未來增長提供了方便的途徑。

超算系統(tǒng)存儲升級,魚與熊掌不能得兼?戴爾說:No!

存儲方案大體框架

為上海交大高性能計算中心設(shè)計的方案里,戴爾采用了第十三代企業(yè)級Dell PowerEdge R730機架服務(wù)器(6臺),以及最新一代的高密度DELL PowerVault MD3420 (1臺) +MD3460 (1臺)磁盤陣列,作為整個存儲系統(tǒng)的核心。

其中,DELL R730機架服務(wù)器用于元數(shù)據(jù)服務(wù)器+對象數(shù)據(jù)服務(wù)器,它的主要配置為:2路E5-2660 V3 2.6GHZ 10核心處理器,256GB RDIMM 2133Mhz DDR4內(nèi)存,2塊300GB的15000轉(zhuǎn)硬盤,H730 1Gb緩存 RAID卡,以及冗余的750W白金級電源。

DELL MD3420磁盤陣列用于元數(shù)據(jù)存儲系統(tǒng),它配置了雙12G的SAS控制器,以及16GB鏡像保護緩存,配置24個800G MIX SSD,做成RAID10,并設(shè)置了2塊熱備盤和1塊冷備盤。

DELL MD3460磁盤陣列用于對象數(shù)據(jù)存儲系統(tǒng),它同樣配置了雙12G的SAS控制器, 以及16GB鏡像保護緩存,OST裸盤容量最高可以達到3840TB。做成RAID6(8+2)后,可用容量差不多是2553TB ,同樣也設(shè)置了2個熱備盤和1塊冷備盤。

最后是英特爾Lustre商業(yè)版用于并行文件系統(tǒng),提供了2個MDS、4個OSS授權(quán)。

至于本方案中同時涉及到的以太網(wǎng)交換機、IB交換機擴展卡、線纜等方面的內(nèi)容,請點擊閱讀原文下載案例報告。

選擇戴爾的理由

在一番比對和研討之后,上海交大高性能計算中心最終選擇了戴爾的產(chǎn)品方案,作為π2.0未來規(guī)劃上線的二級存儲系統(tǒng)。

韋建文老師表示,首先,戴爾產(chǎn)品方案的吞吐性能非常好,這一點尤其得到了高性能中心的高度認(rèn)同。在這樣的前提下,戴爾還能做到極富競爭力的價格,這簡直是用戶意想不到的BONUS了。

其次,戴爾有著非常好的本地支持服務(wù),高性能中心完全不用擔(dān)心備件問題,5年白金專業(yè)支持、一年無休的4小時上門服務(wù),足以幫助高性能中心滿足來自各個院系的嚴(yán)苛計算任務(wù)的需求。

再次,上海交大高性能中心對Lustre極為認(rèn)可,這種文件系統(tǒng)徹底摒除了過去小文件讀取存儲的瓶頸,π的強大計算能力得以充分發(fā)揮。作為英特爾最為核心的合作伙伴,戴爾的設(shè)備上運行Lustre顯得尤為高效。

最后,上海交大在選擇供應(yīng)商時,也非常注意供應(yīng)商在高教領(lǐng)域的其他應(yīng)用狀況——雖然學(xué)校與學(xué)校之間各有各的不同,但是在高性能計算方面的需求,終歸是相差不遠(yuǎn)。此前,高性能中心就已經(jīng)了解到戴爾在全球很多名校,譬如劍橋超算系統(tǒng)的存儲方面,均得到了很好的應(yīng)用。

韋建文老師指出,在數(shù)據(jù)中心領(lǐng)域,戴爾有著非常高的市場占有率,其解決方案的軟硬件配置也很透明。綜合以上各種因素,上海交大高性能中心最終選擇了戴爾。

應(yīng)用痛點一掃而光

據(jù)悉,作為主存儲系統(tǒng),戴爾的產(chǎn)品方案目前已經(jīng)在上海交大高性能中心投入使用,各個院系的數(shù)據(jù)基本已經(jīng)遷移過來。原先的存儲系統(tǒng)并沒有被廢棄,而是用作備份和二級存儲,這也算得是對原有投資的某種保值。

從各方的反應(yīng)來看,大家很滿意,原有的應(yīng)用痛點都得到了很好的解決,各個院系均反應(yīng)新的存儲系統(tǒng)更加高效和穩(wěn)定。以生命科學(xué)學(xué)院的基因組測序為例,他們已經(jīng)新增了100多TB的數(shù)據(jù)。在使用過程中,各種大小文件的讀取和存儲速度令人滿意。

不止于此,存儲管理員也得到了解放。通過IML提供的Web界面,管理員可以很方便地觀看存儲狀況,并且在遠(yuǎn)程對一般性的故障和突發(fā)狀況進行處理。

韋建文老師告訴我們,當(dāng)前系統(tǒng)的存儲容量已經(jīng)提升到2PB,數(shù)據(jù)總量在其中所占比例已經(jīng)下降到「紅線」以下。不過考慮到各個院系的數(shù)據(jù)增長速度,高性能計算中心準(zhǔn)備到后續(xù)將之?dāng)U容到3PB。

未來,上海交大高性能計算中心和π集群將會更多地向異構(gòu)的方向發(fā)展,下一代會考慮高吞吐量的耦合計算能力。與此同時,高性能計算中心還在考慮在存儲節(jié)點上使用閃存的可能,以便更進一步提升性能和IO帶寬,為用戶提供更好的計算和存儲服務(wù)。

最后,韋建文老師表示,十分感謝戴爾公司提供如此優(yōu)秀的產(chǎn)品和解決方案。

至于戴爾,則已經(jīng)在本文的標(biāo)題上做出回應(yīng)了。

分享到

sunk

相關(guān)推薦