在2018杭州云棲大會19號下午的主論壇上,阿里巴巴集團副總裁周明從數據中心、網絡,計算存儲、以及運營角度,分享了公司基礎設施在萬物互聯時代下的應對。

從技術上,阿里巴巴基礎設施通過從業(yè)務到軟件到算法到硬件到芯片的一體化設計,獲取了極致的性能,通過規(guī)?;@得極致的性價比,并運用智能化的手段,來提高基礎設施運營水平,讓科技得以普惠,每個人都能平等的享受。

面向企業(yè)提供全球覆蓋能力,全球互聯網行業(yè)最大規(guī)模液冷集群

在全球,阿里巴巴基礎設施提供了18個區(qū)域49個可用區(qū),數量高達200個以上的數據中心。在網絡方面,全球的骨干網不但連接全球的數據中心,還接入上百個海外POP點,連接全球1500多家運營商。


作為能耗大戶的數據中心,也需要在環(huán)保、節(jié)能方面持續(xù)不斷地努力。

“從當年湖底抽水進行自然的冷卻,到北方通過自然風來進行冷卻,到今天我們有浸沒式的液冷,都讓我們的節(jié)能能力不斷提高,PUE不斷降低?!?/p>

但隨著萬物互聯、萬物智能的今天,必然有非常多的大數據,大數據背后就意味著大的計算。在摩爾定律受到極大挑戰(zhàn)的今天,它意味著對計算力功耗的要求,尤其是高密度計算功耗的要求越來越多。

阿里巴巴聯合全球幾十家合作伙伴,從芯片到主板到服務器整機,從光模塊到箱體以及運營管理,形成商用規(guī)模的液冷集群,集群數量高達幾千臺,是全球互聯網行業(yè)最大的液冷集群,它完美的解決了高密度高功耗下的計算環(huán)境問題。

網絡持續(xù)演進,世界首個大規(guī)模100G RDMA網絡集群

通過自研交換機、OS以及光模塊等,成功規(guī)模部署雙25G、雙100G到服務器的網絡,同時也在研發(fā)400G的網絡。

在網絡低延時方面,通過對RDMA協(xié)議的支持,對運維管理的研發(fā),以及對流量控制運算算法的研發(fā),成功部署了規(guī)?;牡脱訒r的網絡。根據已知的公開信息,已經實現世界首個大規(guī)模100G RDMA集群。

高帶寬、低延時的意義和價值遠遠超過網絡帶寬的本身:

舉例來講,對于一個企業(yè)的業(yè)務研發(fā)人員,他在研發(fā)過程中不再需要關心帶寬問題,他要做的只要關心他的業(yè)務研發(fā)就可以了。

因為數據庫具有非常多的數據,如果業(yè)務增長一旦需要擴容、遷移,要消耗極大的時間,所以非常不方便。但是當有規(guī)模的低延時的網絡以后,那就意味著可以實現存儲和計算的分離。

全球首批規(guī)模商用SSD,自研業(yè)界首個全鏈路軟硬件一體化存儲系統(tǒng)

通過自研SSD存儲,對SSD控制芯片進行定制,支持alibaba open channel 協(xié)議,這使得延遲降低10倍,寫放大降低5倍。同時,這也是全球首批規(guī)模商用的支持open channel 的SSD。

除了SSD硬件,還自研了FusionEngine 本地存儲引擎,打造了軟硬件結合的底層統(tǒng)一存儲平臺,加上低延時RDMA網絡,構筑了從底層芯片到部件、到存儲引擎,到規(guī)模化低延時網絡的一體化技術競爭力。這使得IO能力提升50%以上,延時也有數量級的降低,上層的分布式產品如ESSD 性能提升5倍以上。

“我們認為單一的技術可以帶來局部的突破,但如果你要想獲得極致的有競爭力的性能和技術紅利,必須得通過從業(yè)務到軟件到算法、到硬件到芯片的一體化設計?!?/p>

在計算領域,除了定制CPU、自研AI芯片AliNPU,阿里巴巴也在FPGA領域也有全棧的研發(fā)和應用。不僅效率提升超過30倍,還實現了3倍性價比的提升。

另外,FPGA因為資源有限等原因,并不適合CNNInference,通過一體化的設計,尤其是針對性的算法,整個延時降低170多倍。

“這意味著現實生活中有非常多的極低延時應用的場景,具備非常重要的意義,這是一種能力。這些效率和我們的性能,尤其是低延時,在阿里巴巴業(yè)務場景里面已經得到了實際規(guī)?;膽谩!?/p>

分享到

xiesc

相關推薦