Aurora超級計算機是英特爾、慧與(HPE)和美國能源部(DOE)的合作項目,設計目標是發(fā)揮高性能計算機在模擬、數(shù)據(jù)分析和人工智能方面的巨大潛力。
Aurora的各項參數(shù)都非常驚人。
Aurora擁有10624個刀片服務器節(jié)點,每個刀片配備兩個具有HBM的英特爾至強CPU Max系列處理器,還有六個英特爾數(shù)據(jù)中心Max系列GPU。
也就是說,Aurora有21248 個英特爾至強CPU Max系列處理器,提供總計11萬個核心。還有63744個用于處理AI和HPC工作負載的英特爾數(shù)據(jù)中心Max 系列 GPU。
英特爾數(shù)據(jù)中心Max系列 GPU主要用于高性能計算和AI場景,測試結果顯示,它在實際的科學和工程工作負載上優(yōu)勢明顯,如在OpenMC上的性能是AMD MI250X GPU的2倍,并且,它還可以近乎線性地擴展到數(shù)百個節(jié)點。
英特爾Xeon Max系列CPU是唯一一款將HBM放到了x86處理器上的處理器,在許多實際的高性能計算工作負載上,比如地球系統(tǒng)建模、能源和制造領域 ,比競爭對手的性能高40%。
存儲方面。Aurora集成了超過1024個存儲節(jié)點,存儲系統(tǒng)使用的是英特爾開源的分布式異步對象存儲(DAOS),提供220 PB的容量,31 TB/s的帶寬,并利用了HPE Slingshot高性能網絡。
高性能的存儲對于處理涉及大量數(shù)據(jù)集的工作負載,如核聚變研究、科學工程、物理模擬、天氣預測和其他任務都非常有用。
從應對氣候變化,到研發(fā)治病藥物,科研人員都需要動用大量計算資源。Aurora可用于滿足高性能計算和AI的需求,作為推動科學技術突破的關鍵工具。
預計今年TOP500榜單,Aurora將占有重要的一個席位。
“在進行驗收測試時,我們將使用Aurora來訓練一些大規(guī)模的用于科學研究的開源生成AI模型,” 阿貢國家實驗室副實驗室主任Rick Stevens說道。”Aurora擁有超過60,000個英特爾Max GPU,一個非??斓腎/O系統(tǒng),還有一個全閃存的大規(guī)模存儲系統(tǒng),是訓練模型的理想環(huán)境。”
Aurora所使用的刀片服務器各個部件,從處理器、內存、網絡再到冷卻技術,都非常先進。每臺刀片包含兩個英特爾至強Max系列CPU和六個英特爾數(shù)據(jù)中心Max系列GPU。
此前,Xeon Max系列在Sunspot上展示出了很好的性能表現(xiàn),Sunspot是具有與Aurora相同架構的測試和開發(fā)系統(tǒng)。開發(fā)者可以利用oneAPI和AI工具來加速HPC和AI工作負載,并提高代碼在多種架構上的可移植性。
刀片服務器的安裝也是一個非常精細的活兒。
每個重達70磅的刀片服務器都需要專用的機器吊裝到冰箱大小的機架中。Aurora有166個機架,每個機架可容納64個刀片,整套系統(tǒng)占地大約兩個專業(yè)籃球場的空間。
部署完成后,科研人員就能將應用從測試平臺Sunspot上遷移進來,將應用放置到整個系統(tǒng)上來運行。
隨著GPU在高性能計算和AI方面的優(yōu)勢逐步顯現(xiàn),英特爾開始發(fā)展GPU技術路線。
2022年底和2023年初,英特爾發(fā)布了數(shù)據(jù)中心 GPU Max系列,開始向阿貢國家實驗室交付,如今正式完成了安裝。
Aurora貢獻了好幾個里程碑,它是工業(yè)界首臺性能超過2 ExaFLOPS的超級計算機,也是第一臺基于英特爾的ExaFLOPS級別的超級計算機,標志著超算時代的一個重要里程碑。