阿里巴巴集團研究員、阿里云彈性計算產(chǎn)品線負(fù)責(zé)人、阿里云無影產(chǎn)品線負(fù)責(zé)人張獻濤

以下內(nèi)容根據(jù)速記整理,未經(jīng)演講者審定。

與客戶共同進步

迄今為止,阿里云已經(jīng)在全球25個地域部署了80多個大型云數(shù)據(jù)中心,服務(wù)了超過300萬用戶,行業(yè)總數(shù)超過200個。在這個過程中,阿里云積累了大量有意義和價值的客戶案例。

1.云上奧運會

由于新冠疫情的影響,東京奧運會推遲到了2021年,阿里巴巴作為奧委會全球頂級合作伙伴全程參與其中。本次奧運會最大的一個亮點就是“云上奧運”。

阿里云彈性計算產(chǎn)品為全球奧運盛會直播提供了超強的算力支持:轉(zhuǎn)播時長超過9500個小時,官網(wǎng)APP的訪問人數(shù)超過了1.75億。由于數(shù)字化程度的提升,轉(zhuǎn)播中心面積減少了25%,現(xiàn)場工作人員數(shù)量縮減了27%,可以說,這次由阿里云技術(shù)支持的“云上奧運”完美收官。

奧委會主席巴赫的所言是對阿里云最高的肯定:“今年奧運會是數(shù)字化程度最為高的一屆奧運會?!?/p>

2.應(yīng)對惡劣天氣

南方電網(wǎng)是中國比較知名的電網(wǎng)公司,為廣東、廣西、云南、貴州以及海南、香港、澳門提供電力服務(wù)。惡劣天氣對電力的影響是巨大的。阿里云和南方電網(wǎng)合作推出了國內(nèi)首個神龍云超算平臺,大幅提升了天氣預(yù)報的精細(xì)化水平以及預(yù)測臺風(fēng)的精準(zhǔn)度。今年的第七號臺風(fēng)襲來時,神龍超算云超算平臺以超出普通的云服務(wù)器5倍的能力有效地支撐了南方電網(wǎng)在臺風(fēng)天的應(yīng)急指揮:提前七天預(yù)測臺風(fēng)的動向、每秒鐘浮點運算次數(shù)達(dá)到825萬億次、每30分鐘輸出一份詳細(xì)的報告。

3.支持貧困地區(qū)教學(xué)

眾所周知,云計算給人們的生活帶來了很多的科技紅利。如何讓處于欠發(fā)達(dá)地區(qū)的中小學(xué)生也能夠像大城市的青少年一樣享受云計算帶來的紅利呢?

阿里巴巴集團CEO張勇在今年云棲大會上宣布了一個“少年云計劃”,向欠發(fā)達(dá)地區(qū)捐贈1萬個云電腦機房,助力改善欠發(fā)達(dá)地區(qū)中小學(xué)的科技教育隨時隨地用上最新的技術(shù)?!吧倌暝朴媱潯币呀?jīng)啟動,阿里云也希望更多的合作伙伴參與進來,為欠發(fā)達(dá)地區(qū)的中小學(xué)教育添磚加瓦。

國際權(quán)威機構(gòu)認(rèn)可:計算能力衛(wèi)冕全球第一

在過去的一年內(nèi),阿里云除了服務(wù)好客戶以外也在苦練內(nèi)功。

根據(jù)Gartner的最新評測,阿里云的計算產(chǎn)品在綜合服務(wù)能力方面再次衛(wèi)冕第一的寶座。這份報告整體的評測非常詳盡,對于綜合能力的評測相當(dāng)?shù)轿?。僅在計算這個領(lǐng)域就有272個評分項。在這次評測中,阿里云的計算再次拿到了第一,IaaS和PasS也獲得了綜合能力第三的好成績。

阿里云的付出換來了更多客戶的成功,自己也得到了快速成長。

當(dāng)然,阿里云也不會止步于此,而是在更大的維度上做出創(chuàng)新,在技術(shù)方面做得更加深厚,在產(chǎn)品方面做得更加豐富,在服務(wù)方面做的更加智能,讓智能化的服務(wù)變成主流。

在生態(tài)方面,阿里云也是追求更加的開放,與合作伙伴“共贏共生”。

持續(xù)推動技術(shù)的創(chuàng)新和升級

在技術(shù)方面,阿里云持續(xù)推動技術(shù)的創(chuàng)新和升級又取得了新的成果。

1.第四代神龍架構(gòu)

阿里云發(fā)布了第四代神龍架構(gòu),也是最強的神龍DPU技術(shù)架構(gòu)。

今年有一個非常熱的投資浪潮,就是投資DPU。已經(jīng)大規(guī)模應(yīng)用并且性能指標(biāo)最強的DPU,就是神龍DPU。這個DPU 2017年阿里云帶領(lǐng)團隊業(yè)界首創(chuàng)研發(fā)出的新的技術(shù)架構(gòu),引領(lǐng)了DPU技術(shù)發(fā)展的浪潮。

DPU是軟件定義的技術(shù)架構(gòu),在云計算中用于數(shù)據(jù)的加速和服務(wù)質(zhì)量的提升,同時又可以降低成本。在過去的四年里,阿里云作為DPU技術(shù)的發(fā)明者和領(lǐng)導(dǎo)者,發(fā)布總共發(fā)布了四代神龍架構(gòu),一代比一代的技術(shù)能力都要強。第四代神龍架構(gòu),提供了大規(guī)模的RDMA的組網(wǎng)能力。

傳統(tǒng)的這種RDMA的能力組網(wǎng)基本上都是在千臺規(guī)模就上線,神龍架構(gòu)下的RDMA的能力其實可以做到數(shù)10萬臺的RDMA的規(guī)模。這樣的能力可以大大加速云上業(yè)務(wù)的創(chuàng)新。

2.大規(guī)模分布式調(diào)度技術(shù)資源管控和調(diào)度系統(tǒng)

經(jīng)過12年的開發(fā)和迭代,管理著數(shù)百萬臺的物理服務(wù)器,通過提供APP將底層的資源做到可編程化,滿足客戶的自動化和一些高級的需求。超大規(guī)模的智能故障預(yù)測系統(tǒng),可以提前識別出來硬件的故障,利用神龍熱遷移技術(shù),可以讓客戶的業(yè)務(wù)在無感的情況下做到故障的提前規(guī)避,阿里云還具備業(yè)界最高穩(wěn)定性,單實例可以做到99.975%的穩(wěn)定性,一致性的體驗,也方便了客戶在云邊端使用一套代碼來進行集成,降低了整體的復(fù)雜度,方便業(yè)務(wù)的創(chuàng)新。

在資源調(diào)度方面,彈性其實是核心能力,每天都有數(shù)百萬臺的被創(chuàng)建和釋放出來,滿足客戶的極致需求。

阿里云通過了IDC大規(guī)模的性能測試,也是唯一一個通過了信通院云平臺大規(guī)模彈性性能測試的云服務(wù)廠商,可以在數(shù)分鐘之內(nèi)彈出幾十萬核的算力,在5秒之內(nèi)交付3000個的容器實力,滿足客戶對于彈性資源的極致需求。

在計算領(lǐng)域,近年來最為亮眼的一個領(lǐng)域是AI。達(dá)摩院今年在11月份發(fā)布的訓(xùn)練模型參數(shù)已經(jīng)達(dá)到了10萬億次。應(yīng)對這樣一個巨量模型,對算力提出了更高的這種需求。阿里云基于RDMA網(wǎng)絡(luò)的800G GPU超算實例,不僅能夠利用神龍架構(gòu)的能力,更多的網(wǎng)絡(luò)帶寬讓計算通信變得暢通無阻,分布式訓(xùn)練方面表現(xiàn)性能強勁。同時,通過AIACC飛天加速引擎的整體加速,整個集群的效能提升了9.75倍之多,不論什么樣的規(guī)模,上十臺也好數(shù)百臺也罷,采用 fastGPU這種部署服務(wù),通過API編程就可以把原來需要幾個小時幾天的部署個時間壓縮到5分鐘之內(nèi)。

3.大規(guī)模彈性RDMA技術(shù),為數(shù)據(jù)時代而生

RDMA是讓云計算和傳統(tǒng)IT產(chǎn)生本質(zhì)區(qū)別的技術(shù)。

隨著互聯(lián)網(wǎng)數(shù)據(jù)量的增大,分布式計算的規(guī)模也越來越大,而大規(guī)模集群間的大量數(shù)據(jù)傳輸?shù)拈_銷其實也是非常大的,給CPU帶來的負(fù)擔(dān)也是隨之加重的。阿里云在神龍架構(gòu)的基礎(chǔ)上創(chuàng)新性地提出了彈性RDMA網(wǎng)絡(luò)傳輸技術(shù),用戶可以在使用RDMA技術(shù)的時候獲得低延遲的體驗,eRDMA可以把規(guī)模提升到數(shù)十萬臺,并且兼容RDMA相關(guān)的軟件生態(tài)。這樣一個新的通信方式大大加速大數(shù)據(jù)、AI、高性能計算甚至是一些數(shù)據(jù)庫的應(yīng)用:在機器學(xué)習(xí)場景中, AI訓(xùn)練能力有30%以上的提升,通用數(shù)據(jù)庫場景中,性能有130%的提升,大數(shù)據(jù)的綜合測試也表現(xiàn)出比傳統(tǒng)傳輸高出30%的性能提升,工業(yè)仿真領(lǐng)域也會有20%以上的性能提升。

4.自研倚天710通用CPU芯片

隨著云計算的不斷發(fā)展,通用處理器的芯片會越來越多。

為了能夠更進一步的提升客戶價值,降低云產(chǎn)品的成本,在過去兩年中,阿里云自研了倚天710芯片,基于該芯片的云服務(wù)器將在不久后即將面世,滿足客戶多樣性的計算需求。

該產(chǎn)品的綜合性能測試結(jié)果,和業(yè)界標(biāo)桿相比,其SPEC int 2017性能有20%以上的提升,能效比也優(yōu)于業(yè)界水平50%以上。

5. 無影的大規(guī)模商用

除了彈性計算之外,阿里云還發(fā)布了另一個戰(zhàn)略級產(chǎn)品即無影的大規(guī)模商用。

無影作為一個端的算力的云化是一次成功的嘗試。截至目前,阿里云已經(jīng)服務(wù)了超過2萬個客戶,也讓傳統(tǒng)的辦公、教育、個人娛樂這樣的算力通過像無影進行云化,同時還引領(lǐng)了一批云計算公司參與的熱潮。

無影云電腦是阿里云面向辦公IT領(lǐng)域構(gòu)建的一個全新物種,它利用了阿里云過去12年間在分布式計算、分布式存儲和分布式網(wǎng)絡(luò)的能力,滿足客戶全方位的需求,再通過云原生編程框架,讓更多的軟件企業(yè)能夠做到云化轉(zhuǎn)型的同時還可以提供自己軟件產(chǎn)品或服務(wù)的更好的機制、體驗。阿里云也跟很多的軟件企業(yè)一起進行共創(chuàng),在云電腦中讓傳統(tǒng)的軟件變成云服務(wù),并且取得比傳統(tǒng)軟件更加強大的用戶體驗。

6.面向未來為元宇宙及AI構(gòu)建起新型算力的基礎(chǔ)

最近一個詞非?;穑褪窃钪?。在新興的數(shù)字孿生、元宇宙和AI領(lǐng)域,阿里云通過底層的產(chǎn)品和技術(shù)的創(chuàng)新,與廣大的合作伙伴一起,提供一整套的端到端的算力解決方案:例如,清華大學(xué)能源與動力工程系聯(lián)手阿里云合作伙伴,利用阿里云的云端視覺計算解決方案構(gòu)建了一個虛擬仿真功課的實驗教學(xué)平臺。在這個平臺上已經(jīng)有16門課程、 32項實驗項目,每年以超過22400個學(xué)時供700多名學(xué)生學(xué)習(xí)。

生態(tài)更開放:計算巢助力合作伙伴產(chǎn)品立體化上云

上云,非常關(guān)鍵的一個詞就是開放。

在生態(tài)方面,阿里云今年構(gòu)建了計算巢,作為在生態(tài)開放方面邁出的重要一步,希望借助阿里云十多年間積累的產(chǎn)品和技術(shù)方面的能力,讓軟件企業(yè)把產(chǎn)品更好的進行云化、變成軟件服務(wù),幫助伙伴更高效地服務(wù)客戶,降低業(yè)務(wù)運營成本,實現(xiàn)更大的業(yè)務(wù)價值。

彈性計算四大能力全面服務(wù)客戶

彈性計算不僅僅只是阿里云提供底層計算資源的一個產(chǎn)品,而是有著更多層次的能力,包括豐富的產(chǎn)品實例、多形態(tài)的部署方式,覆蓋云上云下運維周期的套件,以及像無影云手機這些終端服務(wù)類一些新型的產(chǎn)品。

阿里云希望利用“深厚的技術(shù)、豐富的產(chǎn)品形態(tài)、智能的服務(wù)以及開放的生態(tài)”這四方面的能力,為客戶提供全方位的計算服務(wù)保障,讓客戶的云上創(chuàng)新更加簡單,更加高效。

分享到

xiesc

相關(guān)推薦