目前,能支持RDMA技術(shù)的物理網(wǎng)絡主要有Infiniband(簡稱IB)、Omni-Path和以太網(wǎng)。

其中,IB為最主流的技術(shù),RDMA市場目前的壟斷者。目前IB網(wǎng)卡和交換機的供應商主要是Mellanox,在高性能計算(HPC)領(lǐng)域,IB是最為廣泛使用的高速網(wǎng)絡設備。

Omni-Path為Intel收購Qlogic之后研制出來的下一代高性能網(wǎng)絡架構(gòu),典型速度為100Gbps,且Intel在部分CPU上面直接繼承了相關(guān)的接口,可見Intel開拓相關(guān)市場的決心。但Omni-Path的應用才開始起步,市場占有率遠沒有IB那么大。

現(xiàn)在的高速以太網(wǎng)(比如25Gb及其以上的網(wǎng)卡),除了支持傳統(tǒng)的TCP/IP之外,也支持RDMA方式?;谝蕴W(wǎng)的RDMA技術(shù)有兩種,RoCE和iWRAP。RoCE的主要廠商為Mellanox和Broadcom(Avago),它對交換機的要求較高;iWARP的主要廠商為Intel,對交換機的要求較低。

儲迅對GlusterFS的RDMA模塊的改進

因為RDMA技術(shù)的高帶寬和低延遲,GlusterFS在早期的時候便加入了對RDMA的支持。不過,GlusterFS還是以在傳統(tǒng)的TCP/IP網(wǎng)絡中運行為主,如果采用RDMA模式,在HPC等領(lǐng)域持續(xù)地大規(guī)模讀寫,會遇到連接斷掉I/O不能持續(xù)進行等諸多問題,性能的抖動也較大。針對目錄元數(shù)據(jù)的操作(比如列目錄、刪除目錄、查找文件等),表現(xiàn)出來的問題更多。

針對上述問題,儲迅的研發(fā)團隊對GlusterFS的RDMA模塊以及相關(guān)代碼做了全面的梳理,優(yōu)化了讀寫流程,改進了目錄元數(shù)據(jù)的查找方式,并針對并發(fā)操作時不規(guī)范的鎖操作導致的race condition問題進行了全面排查。新的代碼經(jīng)過了大規(guī)模的內(nèi)部測試,以及在基因測序、視頻分析、材料計算等多個客戶處的長時間檢驗,可以穩(wěn)定地運行在復雜的商用環(huán)境中,尤其適合HPC領(lǐng)域的各項計算場景。

除了穩(wěn)定性,在性能方面,使用儲迅改進版本的GlusterFS,基于同樣的硬件,其并發(fā)讀寫性能不僅比TCP/IP模式快3-5倍,而且綜合性能完全可以和Lustre文件系統(tǒng)的性能抗衡。由于GlusterFS比起Lustre有更多的特性,包括數(shù)據(jù)冗余性等HA特性,且不依賴于昂貴的元數(shù)據(jù)服務器,所以,該方案具有比Lustre更強的競爭力。

針對具有元數(shù)據(jù)服務器的分布式文件系統(tǒng),GlusterFS采用了去中性化的架構(gòu),完全屏蔽了元數(shù)據(jù)服務器。這種架構(gòu)帶來了更好的數(shù)據(jù)可靠性,且更容易維護,但也有一定的缺點,主要表現(xiàn)在目錄操作較慢–畢竟列目錄等命令,不能在元數(shù)據(jù)服務器中直接獲取,而需要遍歷每個存儲節(jié)點來獲取內(nèi)容。儲迅在改進RDMA代碼的同時,也對GlusterFS的相關(guān)代碼架構(gòu)做了優(yōu)化,對于列目錄等命令,其性能有著較大的提升,甚至在集群硬盤較多的時候,速度能提高一個數(shù)量級以上,徹底改變了部分用戶對GlusterFS在元數(shù)據(jù)操作方面體驗不佳的印象。

儲迅基于RDMA的HPC存儲的完整方案

基于優(yōu)化了RDMA代碼的GlusterFS,儲迅提供了HPC的完整存儲解決方案,具有高并發(fā)、低延遲、數(shù)據(jù)可靠性高、接口豐富、開箱即用等特點,特別適合基因計算、材料研究、氣象分析、石油勘探、視頻分析等領(lǐng)域。

此外,儲迅還和Infiniband技術(shù)的領(lǐng)軍企業(yè)–Mellanox建立了戰(zhàn)略合作關(guān)系。Mellanox針對儲迅的GlusterFS存儲產(chǎn)品,提供Infiniband和RoCE技術(shù)的全面支持,通過行業(yè)內(nèi)的合作伙伴,提供整合的HPC存儲產(chǎn)品方案,不僅僅在穩(wěn)定性、性能和功能方面給客戶最大的保障,還能為客戶帶來更好的存儲使用體驗,確保能為客戶創(chuàng)造更大的價值。

分享到

songjy

相關(guān)推薦