Mellanox的主要產(chǎn)品系列包括擁有數(shù)據(jù)處理智能的智能網(wǎng)卡(Smart NIC),片上系統(tǒng)(由普通的網(wǎng)卡芯片,Mellanox網(wǎng)卡芯片加上ARM CPU,內(nèi)存構(gòu)成),適配器,交換機以及線纜和收發(fā)器。
數(shù)據(jù)中心的變革——從以CPU為中心到以數(shù)據(jù)為中心
劉通表示,因為傳統(tǒng)的數(shù)據(jù)中心架構(gòu)正在從以CPU為核心的數(shù)據(jù)中心向以數(shù)據(jù)為核心的數(shù)據(jù)中心架構(gòu)轉(zhuǎn)移。所以網(wǎng)絡(luò)需要去賦能,去承擔更重要的責任。
以CPU為核心的數(shù)據(jù)中心是有一個計算節(jié)點1,要等到所有節(jié)點把數(shù)據(jù)傳輸給它,分析才能得出結(jié)果。其中反復的數(shù)據(jù)傳輸環(huán)節(jié)都會造成典型的應用通訊延遲,約30到40微秒。從前的數(shù)據(jù)中心任務單一,數(shù)據(jù)處理量少,我們姑且相信以CPU為核心可以滿足業(yè)務需求。
但現(xiàn)在,我們所面臨的是高速增長的業(yè)務類型和數(shù)據(jù)量,再以傳統(tǒng)的CPU為核心,效率會極大地受限。而能夠打破常規(guī)數(shù)據(jù)中心架構(gòu),以數(shù)據(jù)為核心,通過網(wǎng)絡(luò)移動數(shù)據(jù),分析數(shù)據(jù)產(chǎn)生價值,這也是Mellanox獲得眾多云計算,大數(shù)據(jù)公司青睞的原因。
Mellanox還提出了一個稱為網(wǎng)絡(luò)內(nèi)計算(In-Network computing)的概念凸顯網(wǎng)絡(luò)的重要性,就是數(shù)據(jù)在網(wǎng)絡(luò)過程中完成相應的傳統(tǒng)意義上由CPU來完成的計算操作。如此節(jié)點數(shù)據(jù)沒有必要全部傳到計算節(jié)點A,而是直接在網(wǎng)絡(luò)中完成計算,從而使得通訊應用延遲時間縮短至3-4微秒。
Mellanox正式推出Spectrum-2交換機解決方案
為了不斷提升網(wǎng)絡(luò)的處理能力,Mellanox也在努力尋求技術(shù)上的突破,為此還收購了一些小型芯片公司,ARM CPU公司以便實現(xiàn)智能交換機提供技術(shù)基因。而Mellanox最新的一個技術(shù)情況就是Spectrum-2的發(fā)布,這也是此次媒體見面會的一場“重頭戲”。
Spectrum-2號稱全球最具擴展性的200G和400G開放式以太網(wǎng)交換機解決方案。其亮點主要包括開放性,高性能,靈活性與可編程性。Spectrum-2并不提供所有的軟件,用戶可以選擇自有的網(wǎng)絡(luò)管理軟件,或使用第三方的開放管理軟件,甚至是開源的管理軟件,或者是自研的管理軟件。但它能夠提供自適應路由和負載均衡、同時保證零丟包率和無條件端口性能。
它的靈活性在于,擁有可運行200G、400G以太網(wǎng)的端口以后,可以靈活地將一個400G端口配成16個25G端口,將一個200G端口配成8個25G端口。而可編程性是Mellanox交換機產(chǎn)品的另一個亮點。如此用戶可以使用Mellanox的交換機芯片去定制化,開發(fā)更多的功能,定制他們所需要的一些傳輸協(xié)議方式。
研究機構(gòu)IHS Markit數(shù)據(jù)中心研究實踐部,研究總監(jiān)和顧問Cliff Grossner博士表示,使用外部云服務的企業(yè),以及通過人工智能(AI)技術(shù)和機器學習(Ml)、以數(shù)據(jù)驅(qū)動的計算應用是數(shù)據(jù)中心200GE和400GE網(wǎng)絡(luò)誕生的核心驅(qū)動力。除了對速度的追求,云服務提供商的數(shù)據(jù)中心還需要可編程的網(wǎng)絡(luò)作為支撐,從而可在交換機硬件不變的條件下引入新的網(wǎng)絡(luò)協(xié)議。
Mellanox創(chuàng)新網(wǎng)絡(luò)助力人工智能與機器學習平臺
今天的人工智能和深度學習走入了一個更前端的應用場景,我們需要更強大的深度學習平臺,以更快的速度完成訓練,完成智能大腦的培訓,來滿足實際業(yè)務的需求。因此我們從最開始只考慮算法、考慮功能的階段,到今天深度學習平臺極為關(guān)注系統(tǒng)的效率。
而Mellanox的技術(shù)可以加速深度學習,因為今天的深度學習平臺絕大多數(shù)都在使用智能網(wǎng)絡(luò)傳輸協(xié)議RDMA,包括TensorFlow、Paddle、Caffe。深度學習平臺不能依賴于TCP,因為TCP傳輸數(shù)據(jù)的方式是低效的,所以需要用RDMA去傳輸存儲,無論是現(xiàn)在的分布式存儲環(huán)境,還是未來將大規(guī)模流行的NVMe over Fabric, NVMe的存儲環(huán)境,RDMA都是最好的一種解決方案,RDMA是NVMe over Fabric默認的網(wǎng)絡(luò)傳輸方式。
目前包括Mellanox對人工智能領(lǐng)域的耕耘已經(jīng)收獲頗豐,包括Facebook的人工智能平臺,是基于Mellanox的高速以太網(wǎng)。Mellanox高速網(wǎng)絡(luò)能夠為PayPal實時的欺詐分析提供支撐,NVIDIA(英偉達)高速機器學習一體機,都是基于Mellanox的網(wǎng)絡(luò)。Flickr、雅虎、百度也在用Mellanox來做人工智能,以及京東、騰訊等等。
最后,劉通還表示,我們希望CPU盡量都去處理計算,而不是完成網(wǎng)絡(luò)的傳輸,讓CPU的資源盡量最大化地去面對更多的應用,而不是用于完全的數(shù)據(jù)傳輸。