阿里云提交的論文名為《Scaling Large Production Clusters with Partitioned Synchronization》(PDF版),探討了飛天如何解決大規(guī)模計(jì)算資源的調(diào)度問題,被收錄并榮獲最佳論文獎(jiǎng),這也是ATC最佳論文首次出現(xiàn)中國公司的身影。飛天是阿里云自研的超大規(guī)模云計(jì)算操作系統(tǒng),可將遍布全球的百萬級服務(wù)器連成一臺超級計(jì)算機(jī),以在線公共服務(wù)的方式為社會(huì)提供計(jì)算能力。飛天的核心服務(wù)包括分布式計(jì)算、存儲、數(shù)據(jù)庫、網(wǎng)絡(luò)等,本次獲獎(jiǎng)的論文就是其中的資源調(diào)度服務(wù)。

據(jù)悉,阿里云提交的關(guān)于飛天分布式調(diào)度系統(tǒng)“fuxi2.0”是阿里學(xué)術(shù)合作創(chuàng)新研究計(jì)劃(AIR)與香港中文大學(xué)James cheng老師的項(xiàng)目成果。該論文討論了業(yè)界分布式調(diào)度架構(gòu)資源沖突嚴(yán)重和調(diào)度性能差的問題,創(chuàng)造性地提出了一套資源沖突解決機(jī)制,實(shí)現(xiàn)了調(diào)度器在集群規(guī)模上的可擴(kuò)展性,同時(shí)保證極佳的調(diào)度性能和調(diào)度效果,支撐了飛天大數(shù)據(jù)平臺MaxCompute單集群10萬節(jié)點(diǎn)的規(guī)模,4萬作業(yè)/秒的并發(fā)能力。

云計(jì)算最核心的問題是如何把成千上萬,甚至更大規(guī)模的機(jī)器高效地組織起來,靈活進(jìn)行任務(wù)調(diào)度和管理,使用戶可以像使用一臺機(jī)器一樣使用云計(jì)算。隨著數(shù)據(jù)和計(jì)算量越來越大,云計(jì)算場景也變得超大規(guī)?;?,以前傳統(tǒng)的基于中心架構(gòu)的調(diào)度器受限于單點(diǎn)處理能力,無法在規(guī)模上實(shí)現(xiàn)可擴(kuò)展。

阿里云計(jì)算平臺事業(yè)部研究員關(guān)濤表示:“分布式系統(tǒng)領(lǐng)域有一個(gè)說法,每當(dāng)規(guī)模擴(kuò)大一個(gè)數(shù)量級,就變成了一個(gè)全新的問題。規(guī)模、利用率和公平性是調(diào)度系統(tǒng)的三個(gè)核心,本次的論文基于阿里云飛天系統(tǒng)的部分工作,在不損失利用率和公平性的情況下,探索調(diào)度系統(tǒng)在超大規(guī)模的可擴(kuò)展性能力”。

近幾年,飛天操作系統(tǒng)多項(xiàng)研究成果被國際頂會(huì)錄?。?019年,數(shù)據(jù)調(diào)度論文Yugong被數(shù)據(jù)庫頂級會(huì)議VLDB錄?。?020年,機(jī)器學(xué)習(xí)&單機(jī)調(diào)度論文AntMan被操作系統(tǒng)頂級會(huì)議OSDI錄??;2021年,計(jì)算調(diào)度論文Fangorn被數(shù)據(jù)庫頂級會(huì)議VLDB錄取。

分享到

xiesc

相關(guān)推薦