ZDnet 發(fā)表于:14年07月04日 10:20 [綜述] DOIT.com.cn
云計(jì)算巨頭谷歌和微軟對(duì)目前的以太網(wǎng)交換機(jī)和適配器的千兆帶寬成本甚為不滿,因而與兩個(gè)交換機(jī)芯片提供商Broadcom和Mellanox Technologies公司以及交換機(jī)制造商Arista Networks聯(lián)手,另起爐灶建立起一個(gè)以太網(wǎng)速度規(guī)范,規(guī)范與由IEEE官方認(rèn)可的以太網(wǎng)速度不同。為了得到更好的端口密度和降低成本,云服務(wù)提供商谷歌和微軟想在機(jī)架內(nèi)部運(yùn)行25Gb/秒和50Gb/秒速度的以太網(wǎng),而不是目前的10Gb/秒、40Gb/秒和100Gb/秒速度。
以太網(wǎng)最初在Xerox PARC實(shí)驗(yàn)室運(yùn)行了近十年,后來進(jìn)入商業(yè)化,上世紀(jì)80年代初以3 MB/秒、10 MB /秒的速度運(yùn)行。除此以外,其他的以太網(wǎng)的速度均是由參加IEEE的一群網(wǎng)絡(luò)供應(yīng)商建立的。今年三月,IEEE在中國開會(huì),微軟提交了所謂的“倡議書” (Call for Interest,縮寫為CFI),提出建立25 Gb /秒的以太網(wǎng)速度,以及在某些應(yīng)用中容許以太網(wǎng)以50 Gb /秒的速度運(yùn)行。但微軟的CFI沒有獲得批準(zhǔn)。像谷歌和微軟的云建設(shè)商對(duì)此類速度的以太網(wǎng)極為需要,所以他們自己組了個(gè)聯(lián)盟,名字自然叫25 Gigabit以太網(wǎng)聯(lián)盟,要建個(gè)25 Gb/秒以太網(wǎng)標(biāo)準(zhǔn),同時(shí)亦遵循IEEE 802.3規(guī)范,以太網(wǎng)標(biāo)準(zhǔn)歷來是由IEEE管的。
Arista Networks客戶工程高級(jí)副總裁Anshul Sadana向筆者介紹了情況。就目前的以太網(wǎng)規(guī)范而言,40 Gb/秒交換機(jī)需要4條流量道的串行/解串器(SerDes)芯片,每條道運(yùn)行10 Gb/秒的速度。 (Sadana解釋說,實(shí)際上,由于編碼開銷,每條流量運(yùn)行的實(shí)際速度是11.25 Gb /秒,但這不是人們談?wù)摰臇|西。)要獲得100 Gb /秒的鏈路,有兩種方法:運(yùn)行10條10 Gb /秒的道或是4條25 Gb/秒的道。這些并行鏈接(運(yùn)行10 Gb /秒或25 Gb /秒的速度)會(huì)導(dǎo)致不同的網(wǎng)絡(luò)接口卡和交換機(jī)的設(shè)計(jì)選擇,而云服務(wù)供應(yīng)商指,這些設(shè)計(jì)選擇與他們的需求不符。雖然云服務(wù)供應(yīng)商總是樂于擁有更多的帶寬,但他們不想在更高的成本或會(huì)使得他們的交換機(jī)具有更低的端口密度的情況下得到更多的帶寬。
Sadana表示,“就40 Gb /秒而言,如果需要4條道,開關(guān)芯片上元素更多,用電更多,會(huì)導(dǎo)致較低的端口密度,而用單道器件來實(shí)現(xiàn)的話端口密度高些。現(xiàn)在的SerDes已經(jīng)從1 Gb /秒發(fā)展到10 Gb /秒到25 Gb /秒,都可以用來實(shí)現(xiàn)IEEE速度。但平行道從成本的角度來看不是最佳的,特別是對(duì)數(shù)據(jù)中心而言。在數(shù)據(jù)中心里可以把大量的服務(wù)器放在一個(gè)機(jī)架上,這些服務(wù)器需要一個(gè)合適的上行鏈路。“
舉例來說,在時(shí)下的標(biāo)準(zhǔn)機(jī)架上,使用10 Gb /秒速度的架頂交換機(jī)可能有4 8個(gè)接到服務(wù)器的下行端口和4或8個(gè)接到網(wǎng)絡(luò)聚合層的上行鏈路。但是,如果接服務(wù)器的下行鏈路改用40 Gb /秒速度,交換機(jī)通常只需要32或36個(gè)端口——不夠一個(gè)機(jī)架上的機(jī)器數(shù)目,最終不得不買兩個(gè)40 Gb /秒交換機(jī),遺下一些廢掉的端口。
交換機(jī)技術(shù)在不斷發(fā)展,單位千兆比特的成本隨著時(shí)間的推移從1 Gb /秒到10 Gb /秒到40 Gb /秒不斷回落。Sadana指,具有兩根電線的25 Gb /秒單道交換機(jī)相對(duì)于最低單位千兆比特成本而言是個(gè)最有效點(diǎn)。聯(lián)盟提議的25 Gb /秒標(biāo)準(zhǔn)和市場(chǎng)上的40 Gb /秒交換機(jī)沒有可比性,Sadana也同意這一點(diǎn)。但是,初略地計(jì)算一下(25 Gigabit以太網(wǎng)聯(lián)盟成員無疑也這樣做過)后不難發(fā)現(xiàn),設(shè)備級(jí)別的25 Gb /秒單道交換機(jī)用電處于四分之一到一半之間,但卻可以在網(wǎng)絡(luò)接口得到2倍到4倍的開關(guān)端口密度。Sadana預(yù)測(cè),隨著時(shí)間的推移,25 Gb /秒以太網(wǎng)交換機(jī)進(jìn)入市場(chǎng),25 Gb /秒端口的成本會(huì)小于10 Gb /秒端口成本的一半或更低。云建設(shè)商的計(jì)算結(jié)果是;25 Gb /秒以太網(wǎng)交換機(jī)的帶寬是10 Gb /秒以太網(wǎng)交換機(jī)的2.5倍,成本卻只有1.5倍,功率包絡(luò)僅僅一半,端口密度也高得多。
現(xiàn)如今,幾乎所有的以太網(wǎng)交換機(jī)都提供亞微秒級(jí)的延遲,500納秒到1微秒之間屬于典型的延遲,對(duì)于網(wǎng)頁式的、云托管應(yīng)用程序,這種端口到端口的延遲是可以接受的。Sadana表示,“例如,你用的是一個(gè)搜索引擎或分析應(yīng)用程序,延遲在這個(gè)范圍內(nèi),萬事大吉。” Sadana指,高頻交易和其他類似的工作負(fù)載是例外,在這些情況下,顯然低時(shí)延(以及低時(shí)延的一致性)比純粹帶寬更重要。問題的中心是:40 Gb /秒交換機(jī)和適配器的成本相對(duì)比較高,企業(yè)和云建設(shè)者在尋找替代品。
Sadana稱,“如果你選40 Gb /秒,你必須多掏錢。因此,許多大型云服務(wù)提供商和大型企業(yè)在40 Gb /秒變得更具成本效益以前是不會(huì)轉(zhuǎn)用40 Gb /秒的——但這可能是很多很多年以后的事。“
盡管聯(lián)盟提出的25 Gb /秒標(biāo)準(zhǔn)因?yàn)橛懈斓呐c匯聚層連接的上行鏈路而對(duì)服務(wù)器之間的連接有益,但有些應(yīng)用程序需要更多的其他東西。在這一方面,聯(lián)盟提議使用一對(duì)25 Gb /秒的鏈路建立50 Gb /秒的以太網(wǎng)速度。雖然這種加倍的流量道確實(shí)在交換機(jī)和網(wǎng)絡(luò)接口卡上需要比較強(qiáng)大的芯片,50 Gb /秒交換機(jī)比40 Gb /秒交換機(jī)多提供了25%的帶寬,而流量道數(shù)目只有一半。這些50 Gb /秒端口與云存儲(chǔ)以及需要更高帶寬的任何其他應(yīng)用程序的帶寬成本曲線是相吻合的。
Sadana表示,聯(lián)盟并不是在重塑以太網(wǎng),聯(lián)盟僅僅是在原有基礎(chǔ)上加入一些調(diào)整,以支持25 Gb /秒和50 Gb /秒,還會(huì)加入自動(dòng)協(xié)商機(jī)制,使得新速度與現(xiàn)存的以太網(wǎng)速度具有可互操作性。參加聯(lián)盟的供應(yīng)商、數(shù)據(jù)中心運(yùn)營商或最終用戶都可以使用25 Gb /秒和50 Gb /秒的各項(xiàng)規(guī)格的資料。聯(lián)盟正在對(duì)兩個(gè)速度的物理層(PHY)和MAC層的定義進(jìn)行各項(xiàng)工作,包括虛擬通道兼容的考慮、前向糾錯(cuò)以及上面提到的自動(dòng)協(xié)商。 Sadana指,敲定這些規(guī)格至少需時(shí)約六個(gè)月,出爐ASIC設(shè)計(jì)需要六個(gè)月到一年的時(shí)間。所以,在2015年夏季或2016年初之前,就別指望市場(chǎng)上會(huì)有25 GbE或50 GbE產(chǎn)品出現(xiàn),實(shí)際的等待時(shí)間可能會(huì)更長一點(diǎn)點(diǎn)。
Mellanox公司營銷副總裁Kevin Deierling告訴記者,公司的第一個(gè)100 Gb/秒的InfiniBand交換機(jī)上個(gè)星期已經(jīng)成功展示過了,設(shè)計(jì)交換機(jī)和適配器ASIC以及布線等支持25 GbE和50 GbE規(guī)格的基礎(chǔ)工作不是什么大不了的事。他稱,“在核心基礎(chǔ)技術(shù)方面,我們?cè)谙嚓P(guān)的技術(shù)上做了一些開創(chuàng)性的工作,而布線、SerDes、核心工藝技術(shù)則完全是一樣的。是的,ASIC集是新的,但25 GbE實(shí)際上只是100 Gb /秒的一個(gè)子集。“Mellanox公司正在開發(fā)一個(gè)終端到終端的解決方案,力求可以一次過推向市場(chǎng)。Mellanox認(rèn)為客戶應(yīng)該現(xiàn)在就根據(jù)需要開始考慮將25 Gb /秒,40 Gb /秒,和50 Gb /秒的架頂交換機(jī)用于100 Gb /秒核心交換層。Deierling表示,最重要的一條是,在任何使用25 Gb /秒有益處的地方,要充分利用其優(yōu)勢(shì)。至于時(shí)機(jī)問題,Mellanox公司沒有給出25 GbE和50 GbE產(chǎn)品進(jìn)入市場(chǎng)的時(shí)間,但重申Mellanox準(zhǔn)備在2014年年底或2015年年初將100 Gb /秒的InfiniBand推向市場(chǎng),并會(huì)按步“隨后”推出以太網(wǎng)。25 GbE和50 GbE新產(chǎn)品則會(huì)在那以后應(yīng)市。
聯(lián)盟背后有 Broadcom和Mellanox公司撐腰,再加上谷歌和微軟等買家,英特爾、思科、惠普和其他一些有自己交換機(jī)ASIC的公司是否會(huì)入局呢?看起來是件有意思的事。亞馬遜網(wǎng)絡(luò)服務(wù)和Facebook似乎也很可能加入戰(zhàn)團(tuán),甚至一些受到同樣的網(wǎng)絡(luò)問題困擾的超級(jí)計(jì)算機(jī)中心也會(huì)加入聯(lián)盟也不一定。一旦支持這些新速度的交換機(jī)和適配器都出來之后,有事實(shí)證明它們是貨真價(jià)實(shí)的以太網(wǎng)產(chǎn)品并且可以與其他以太網(wǎng)交換機(jī)進(jìn)行互操作,如果云建設(shè)者和大型企業(yè)開始采用它們,那么其他的網(wǎng)絡(luò)公司必然加入進(jìn)來,甚至還有可能要求IEEE將這些規(guī)格放在IEEE以太標(biāo)準(zhǔn)里。但目前來看,IEEE的眼光放得更遠(yuǎn)一點(diǎn),IEEE在考慮發(fā)展400 Gb/秒以太網(wǎng)標(biāo)準(zhǔn)的事。
公司簡介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.