圖1–吞吐率(MB/秒)與數(shù)據(jù)包大?。〝?shù)據(jù)塊大?。┑腘etpipe樣圖
此樣圖取自使用3個(gè)不同MPI庫的GigE網(wǎng)絡(luò)。從此圖中,您可以測(cè)量帶寬(圖中最高值的一半)和N/2(首次實(shí)現(xiàn)最高帶寬時(shí)的數(shù)據(jù)包大?。▎挝唬鹤止?jié)))。
第二個(gè)截圖如下:
圖2–吞吐率與時(shí)間的Netpipe樣圖
從上圖中,您可以確定延遲時(shí)間,即處理2字節(jié)大小的數(shù)據(jù)包(或極小數(shù)據(jù)包)的時(shí)間。
通常,對(duì)于示范配置而言,測(cè)量互連的最有效方式是計(jì)算延遲、最高帶寬和N/2。這意味著在兩個(gè)節(jié)點(diǎn)之間配置一臺(tái)運(yùn)行MPI的交換機(jī)。之所以稱其為最有效是因?yàn)槠渲邪琀PCC系統(tǒng)的組成元素–操作系統(tǒng)節(jié)點(diǎn)、網(wǎng)卡(NIC)、線纜、交換機(jī)和軟件(MPI)。
幾名研究人員聚在一起,測(cè)試了帶有TCP卸載引擎(TOE)的Chelsio 10GigE NIC(T11)。他們(不使用交換機(jī))對(duì)網(wǎng)卡進(jìn)行了背靠背測(cè)試,同時(shí)還使用12端口富士通交換機(jī)對(duì)網(wǎng)卡進(jìn)行了測(cè)試。他們的測(cè)試涉及各個(gè)方面,但與HPC最相關(guān)的卻可能是MPI評(píng)估。他們?cè)跍y(cè)試中使用了LAM和1500字節(jié)的MTU。他們實(shí)現(xiàn)了以下性能:
– 延遲=10.2微秒(內(nèi)置插槽為8.2微秒)
– 帶寬= 6.9 Gbps(862.5 MB/秒)
– N/2=100,000+字節(jié)(數(shù)據(jù)來自本文中的圖7)
不幸的是,本次研究結(jié)果是我能找到的關(guān)于純粹TCP 10GigE解決方案的唯一公布的完整結(jié)果。這些結(jié)果有些過時(shí)(2005年),但目前沒有比這個(gè)更完整的結(jié)果了。不過,互聯(lián)網(wǎng)上仍然還有與此相關(guān)的其它零散的性能數(shù)據(jù)。例如,Mellanox擁有一個(gè)可以在本地運(yùn)行TCP的ConnectX HCA版本。您可以在此站點(diǎn)上找到一些性能信息,尤其是下列信息:
– MTU=1500時(shí)帶寬=9.5 Gbps(1187.5 MB/秒)
– MTU=9000時(shí)帶寬=9.9 Gbps(1237.5 MB/秒)
延遲和N/2結(jié)果均沒有列出。此外,上述測(cè)試使用了TCP而不是MPI完成。
10GigE–觀察結(jié)果
我認(rèn)為比較10GigE與IB的性能是值得的。與這一站點(diǎn)一樣,Mellanox也擁有一些性能數(shù)據(jù),從這些數(shù)據(jù)中我們會(huì)發(fā)現(xiàn)DDR IB具有以下性能:
– 延遲=低于1微秒
– 帶寬=3000 MB/秒(使用PCI-e Gen 1的InfiniBand DDR)、3800 MB/秒(使用PCI-e Gen2的InfiniBand DDR)和6600MB/秒(使用PCIe Gen2的InfiniBand QDR)。這些都是雙向BW數(shù)據(jù)。
– N/2=480字節(jié)
如果我們將上述結(jié)果與10GigE進(jìn)行比較,會(huì)發(fā)現(xiàn)此時(shí)DDR和QDR IB比10GigE的性能更出色。最近我們也看到QDR(四倍數(shù)據(jù)速率)IB的出現(xiàn)會(huì)提高帶寬,但不太可能會(huì)對(duì)初次部署的延遲或N/2造成重要影響。然而,這些都是微基準(zhǔn)測(cè)試,雖然能夠預(yù)測(cè)性能,但卻不能取代針對(duì)應(yīng)用的正式測(cè)試。
我同意不討論變化不定的價(jià)格,但在通常情況下,對(duì)于適當(dāng)大小的集群(超過32個(gè)節(jié)點(diǎn)),10GigE的每端口成本目前遠(yuǎn)高于IB。
10GigE會(huì)融入HPC嗎?
本部分的標(biāo)題有些挑釁意味,因?yàn)槲艺J(rèn)為答案是肯定的。但至于"何時(shí)"以及"在多大程度上"融入HPC則仍然是個(gè)問題。目前,在普通的微基準(zhǔn)測(cè)試中,10GigE并不具備與IB相同的性能水平。此外,其性能也不可能大幅度提高,它仍然存在大約8-10微秒的延遲,帶寬大約為1,100-1,200 MB/秒。不過,10GigE確實(shí)存在改進(jìn)N/2的空間,而且極有可能實(shí)現(xiàn)(這一點(diǎn)我只是希望有人能夠公布一些更新的數(shù)據(jù))。
此外,使用TCP還會(huì)帶來一些問題,如不能擁有無損失的網(wǎng)絡(luò)或在引入生成樹時(shí)帶來更多延遲等。DCE在這些方面倒是可以提供一臂之力,但在它成為一項(xiàng)標(biāo)準(zhǔn)之前,它都不會(huì)對(duì)HPC產(chǎn)生多大效用。
那么,我有什么建議呢?理想的情況是,您應(yīng)該在各種網(wǎng)絡(luò)上測(cè)量應(yīng)用,以衡量性能,尤其是觀察隨著HPC系統(tǒng)越來越大而不是越來越小時(shí)應(yīng)用的擴(kuò)展情況(即人們每年會(huì)在更多內(nèi)核上運(yùn)行計(jì)算機(jī))。但此時(shí)面向10GigE的微基準(zhǔn)測(cè)試結(jié)果并不是最佳水平,也不會(huì)達(dá)到Infiniband的性能水平。目前,10GigE的高昂成本阻礙了其在HPC環(huán)境中的廣泛應(yīng)用。
我等待了至少4年希望看到10Gige的價(jià)格下降。我仍然在等待,但不幸的是年紀(jì)越來越大。與此同時(shí),InfiniBand已經(jīng)變成了HPC中的主要網(wǎng)絡(luò)。其性能得到了大幅提升,價(jià)格也已經(jīng)下降至大約一個(gè)節(jié)點(diǎn)250美元,適用于更小型的系統(tǒng)。在我看來,10GigE如果想成為通用HPC網(wǎng)絡(luò),還有很長的路要走。