OCI Zettascale10 是首個 Zettascale 云計算集群的強大升級版,該集群最初于 2024 年 9 月推出。OCI Zettascale10 集群部署在大規(guī)模千兆瓦數(shù)據(jù)中心園區(qū)內(nèi),這些園區(qū)在兩公里半徑范圍內(nèi)進行了高度密集優(yōu)化,為大規(guī)模 AI 訓練工作負載提供較低的 GPU-GPU 延遲。這一架構(gòu)正在阿比林 Stargate 站點與 OpenAI 共同部署。

甲骨文公司Oracle Cloud Infrastructure 執(zhí)行副總裁 Mahesh Thiagarajan 表示:“通過 OCI Zettascale10,我們將 OCI 的 Oracle Acceleron RoCE 網(wǎng)絡架構(gòu)與下一代 NVIDIA AI 基礎(chǔ)設(shè)施融合,實現(xiàn)多千兆瓦 AI 容量的大規(guī)模部署??蛻艨梢栽趩挝恍阅芟母凸β实那闆r下構(gòu)建、訓練并部署更大規(guī)模的 AI 模型,并保證高可靠性。此外,客戶還可在 Oracle 分布式云中自由操作,同時享有強大的數(shù)據(jù)和 AI 主權(quán)控制?!?/p>

OpenAI 基礎(chǔ)設(shè)施與工業(yè)計算副總裁 Peter Hoeschele 表示: “OCI Zettascale10 的網(wǎng)絡與集群架構(gòu)首先在德克薩斯州阿比林的 Stargate 旗艦站點部署,這是我們與 Oracle 的聯(lián)合超算集群。高度可擴展的定制 RoCE 設(shè)計在千兆瓦規(guī)模下提升整體性能,同時將大部分功率集中在計算上。我們期待繼續(xù)擴大阿比林站點及整個 Stargate 項目?!?/p>

OCI 計劃向客戶提供多千兆瓦級的 OCI Zettascale10 部署。初期,OCI Zettascale10 集群將支持多達 80 萬 NVIDIA GPU 的部署,提供可預測的性能和良好的成本效率,同時通過 Oracle Acceleron 超低延遲 RoCEv2 網(wǎng)絡實現(xiàn)高 GPUGPU 帶寬。

NVIDIA 超大規(guī)模副總裁 Ian Buck 表示: “Oracle 與 NVIDIA 將 OCI 分布式云與我們的全棧 AI 基礎(chǔ)設(shè)施整合,為 AI 提供大規(guī)模計算能力。借助 NVIDIA 全棧 AI 基礎(chǔ)設(shè)施,OCI Zettascale10 提供推進前沿 AI 研究所需的計算架構(gòu),幫助各類組織從實驗階段邁向工業(yè)化 AI?!?/p>

Oracle Acceleron RoCE 網(wǎng)絡在 OCI Zettascale10 上為 AI 提供擴展性、可靠性和高效性

Oracle Acceleron RoCE 網(wǎng)絡架構(gòu)是客戶在云端構(gòu)建、訓練和推理 AI 工作負載的重要創(chuàng)新,同時能夠充分發(fā)揮 OCI Zettascale10 的性能與能力。該架構(gòu)利用現(xiàn)代 GPU 網(wǎng)卡(NIC)內(nèi)置的交換能力,使網(wǎng)卡可同時連接到多個交換機,每個交換機位于獨立隔離的網(wǎng)絡平面上。這種方法通過在某一平面出現(xiàn)問題時將流量切換到其他平面,大幅提升了網(wǎng)絡的整體擴展性和可靠性,避免了昂貴的停滯和重啟。Oracle Acceleron RoCE 網(wǎng)絡的關(guān)鍵特性,有助于客戶應對重要 AI 工作負載,包括:

廣泛、淺層且高彈性的網(wǎng)絡結(jié)構(gòu):通過將 GPU NIC 用作微型交換機并連接到多個物理與邏輯隔離的平面,幫助客戶以更低總成本更快部署更大規(guī)模的 AI 集群。這一設(shè)計提升了擴展性,同時減少網(wǎng)絡層級、成本和功耗。

更高可靠性:通過消除跨平面的數(shù)據(jù)共享,幫助客戶維持 AI 作業(yè)的穩(wěn)定性。當某個平面不穩(wěn)定或擁塞時,流量會自動切換,確保訓練作業(yè)持續(xù)運行,避免昂貴的檢查點重啟。

性能一致性:相比傳統(tǒng)的三層設(shè)計,減少一個網(wǎng)絡層級,為客戶提供更統(tǒng)一的 GPUGPU 延遲,提高大規(guī)模 AI 訓練和推理的可預測性。

高能效光學方案:支持 Linear Pluggable Optics (LPO) 和 Linear Receiver Optics (LRO),在不犧牲 400G/800G 吞吐的情況下降低網(wǎng)絡和冷卻成本,讓客戶可將更多電力用于計算。

運維靈活性:通過平面級維護和獨立的網(wǎng)絡操作系統(tǒng)更新,幫助客戶減少停機時間并加快功能部署速度。

OCI Zettascale10 集群預計將在 2026 年下半年交付,支持多達 80 萬 NVIDIA AI 基礎(chǔ)設(shè)施 GPU 平臺。

分享到

zhupb

相關(guān)推薦