UnifabriX 和 Panmnesia 是專注于 CXL 技術的最活躍的兩家初創(chuàng)公司。到 2023 年 4 月,UnifabriX公司已在 2RU 機箱中開發(fā)出具有 32TB DDR5 DRAM 的智能內存節(jié)點,現在擁有基于 UnifabriX 軟件和半導體 IP 的 MAX(Memory Accelerator)可組合內存設備。
UnifabriX 設備
MAX 提供了一個軟件定義的內存架構池,具有自適應內存共享功能,并使用 CXL 和 UALink 布線及相關概念,其中一些在上面的幻燈片中有所提及。我們將研究系統級架構,然后嘗試理清復雜的布線情況。
UnifabriX MAX: 系統級架構
Hyatt 談到這張幻燈片時說:“在我們的 FabriX 內存操作系統之上,這是一個強化的 Linux……我們有一個流處理器,它可以在數據流入內存池時處理數據流和協議流。這是可編程硬件。你可以把它想象成在交換機和互聯網交換機中發(fā)展起來的 P4 概念,在那里你可以即時解析數據,并在協議消息進出時對其進行編輯。
“所以你在這里看到前端端口,六個前端端口連接到主機。目前有 CXL 1.1 和 2.0。我們有板載和架構端口,我們將那里的鏈路加速到 112G,比 CXL 目前支持的速度快得多。在速度方面,這相當于 NVLink 4,我們正在進行 224G 的原型設計,這相當于 NVLink 5。是的,這就是帶寬。當你連接多個 MAX 設備時,我們希望在后端、在架構上獲得盡可能高的帶寬?!?/p>
CXL 布線情況
PCIe、CXL 和 UALink 的情況很復雜。我們應該注意到,在 CXL 1 和 CXL 3.1 之間有五代 CXL 標準,現在還有第六代 CXL 3.2。CXL 3.2 增加了優(yōu)化的內存設備監(jiān)控和管理、擴展的安全性、性能監(jiān)控,并且與之前的 CXL 規(guī)范向后兼容。
Hyatt 告訴我們:“PCIe 最初是為在平臺內部使用而構建的,作為一種短距離互連,取代了 CPU 和外圍設備之間的 PCI,因此它沒有成熟的布線生態(tài)系統。PCIe 的大規(guī)模用例后來才出現,例如‘PCIe 架構’,用于匯集和分解 NVMe 存儲、網卡和 GPU 等設備。
“那些用例不需要很大的帶寬,因此使用窄的 x4 交換機端口和 x4 SFF – 8644(mini – SAS)布線就足夠了。這里和這里有一些例子。
“CXL 在 PCIe Gen 5 之上的出現創(chuàng)造了對高性能 PCIe 布線的新需求,這種布線能夠為內存事務提供更高的帶寬。由于 PCIe 沒有現成的此類解決方案,市場通過利用以太網領域的布線系統找到了臨時解決方案,例如:
QSFP – DD MSA(x8)——QSFP 的一種更密集的形式,最初是為以太網、光纖通道、InfiniBand 和 SONET/SDH 而創(chuàng)建的。一些人(現在仍然有人)將其用于 PCIe x8 連接。見這里。
CDFP MSA(x16)——最初是為 400G 以太網(16 x 25G 通道)開發(fā)的,但后來被事實上認證可用于 PCIe Gen 5。見這里和這里。
“如今,PCIe 生態(tài)系統正在圍繞 OSFP MSA 布線系統進行整合,OSFP(x8)及其更密集的變體 OSFP – XD(x16)都支持每條通道 224G PAM4 的最新信號速率(例如,8 x 200G = 1.6 Tbps 以太網),因此也與 PCIe Gen 5/CXL 1.1、2.0(32G NRZ)、PCIe Gen 6/CXL 3.x(64G PAM4)和 PCIe Gen 7/CXL 4.x(128G PAM4)兼容。也就是說,這個 OSFP 布線系統在 PCIe 領域至少在未來兩代內都具有前瞻性。它也為在電氣層面重用以太網 I/O 的 UALink 做好了準備。一根線纜統御一切?!?/p>
Nvidia 在這里展示了一條前進的道路,Hyatt 解釋說:“將內存架構引入數據中心需要大量的市場教育。Nvidia 在推出帶有 NVLink 內存架構的 DGX GH200 系統時介入并提供了幫助,創(chuàng)建了一個 144TB 的大型分散內存池。CXL 和 UALink 是 NVLink 的開放替代品。它們都支持原生的加載/存儲內存語義。
“Nvidia 讓世界認識到內存架構(通過 NVLink)優(yōu)于網絡(通過 InfiniBand)。我們傾向于同意這一點。”
他說:“UnifabriX 開發(fā)了一個符合 CXL 3.2 FM API 的架構管理器(FM),包括對 DCD(動態(tài)容量設備)的支持,即它能夠使用標準的、開放的 CXL API 按需動態(tài)地配置和取消配置內存。我還沒有看到其他的 DCD 架構管理器,所以這可能是你遇到的第一個真正能做到這一點的 FM?!?/p>
還有其他幾點。Hyatt 說:“我們能夠混合和匹配 CXL 端口和 UALink 端口,這意味著我們可以按需向 CPU 和 GPU 提供內存。UALink 連接器基于以太網 I/O,所以相同的連接器,即相同的 OSFP 和 OSFP XD,將用于 CXL 和 UALink。你只需改變端口的屬性?!?/p>
工作芯片
該公司展示了其內存池能夠根據需求動態(tài)改變大小,并分配給主機處理器,然后再返回內存池。UnifabriX 已經開始盈利,其產品已部署在數據分析、高性能計算、公共和私有云等領域。
Hyatt 說:“我們有一些超大規(guī)??蛻?,[在這些客戶那里]系統正在 Emerald Rapids 平臺上運行實際工作負載,并且很快將轉向使用 AMD 的 Granite Rapids 和 Turin 系統。
“我們在市場的不同細分領域有相當多的新客戶,不僅僅是超大規(guī)模客戶和國家實驗室。我們有藥物研發(fā)公司、DNA 測序公司。事實證明,在高性能計算的大范疇下有很多用例,人們在這些用例中需要大量內存。有時他們需要帶寬,有時他們需要容量。但是能夠按需增長內存并動態(tài)地做到這一點帶來了很大的價值,不僅僅是在總體擁有成本方面?!?/p>
他解釋說:“你看云,公共云,國家實驗室。我們從國家實驗室和動畫工作室開始。那里有很多數字資產,你需要進行渲染和處理,如今他們都在使用快速存儲系統,但對于他們的需求來說還不夠快。所以在中間有一個內存池有助于加速整個過程?!?/p>
內存內處理
Hyatt 談到 MAX 能夠進行一些處理:“它具有處理能力,我們發(fā)現這對于高性能計算非常有用。所以我們有內存內處理或近內存處理能力。這對于稀疏內存模型非常有效,例如在高性能計算中,你有非常大的模型,可能達到 PB 級,你需要抽象內存地址空間。所以你實際上在外部暴露了一個巨大的地址空間。
“但在內部你進行映射。這是我們在這里進行的內存處理的一部分。這是一個例子。我們有一個 APU,即應用處理單元,向客戶開放,客戶可以在容器上運行他們自己的代碼。所以如果他們想在內存上做一些事情,比如檢查惡意代碼,檢查內存中的一些異常模式,他們可以在內部運行這些操作。我們提供了這種能力?!?/p>
UnifabriX 如何進入市場?Hyatt 說:“目前,我們直接與終端客戶合作。我們這樣做的原因是因為這是產品定義的一部分,比如獲取客戶需求的反饋。所以你不希望有中間渠道,因為那樣你會失去很多反饋。
“但我們已經與合作伙伴合作。其中一些是平臺原始設備制造商,他們希望將內存池作為其產品組合的一部分。所以想想所有擁有存儲系統的大公司,把內存池看作是一個存儲服務器,但它是用于內存的。所以與存儲相關的大多數模式和語義將被復制到內存領域,我們正在與他們合作。
“除此之外,我們還有幾個渠道,有些是專門針對高性能計算的。有一些原始設備制造商為高性能計算市場制造獨特的服務器和設備。高性能計算對 CXL 提供的內存帶寬非常感興趣。有一些系統集成商建造整個機架,并將 GPU 和大量計算能力一起發(fā)貨。他們實際上將 GPU、服務器、存儲和內存組裝在一起,并作為一個機架發(fā)貨?!?/p>
UnifabriX 計劃在 2025 年下半年進行新一輪融資。
在制造工藝方面,Hyatt 說:“目前,我們的芯片是 7 納米工藝,我們計劃在 2026 年、2027 年初采用臺積電的 5 納米工藝?!闭?Hyatt 指出的,這與 PCIe Gen 6 相契合:“CXL 本身正從 PCIe Gen 5 向 Gen 6 發(fā)展,所以我們必須升級工藝。Gen 6 涉及混合信號……需要 5 納米工藝才能在功耗方面高效?!?/p>
我們將跟進一篇關于 UnifabriX 的 MAX 設備的文章。
(腳注)
QSFP——四通道小型可插拔標準,指用于光纖或銅纜布線的收發(fā)器,速度是其對應的 SFP(小型可插拔)標準的四倍。QSFP28 變體于 2014 年發(fā)布,允許的速度高達 100Gbps,而 QSFP56 變體于 2019 年標準化,將最高速度翻倍至 200Gbps。一個更大的變體八通道小型可插拔(OSFP)在 2022 年有產品發(fā)布,能夠在網絡設備之間實現 800Gbps 的鏈路。
OSFP MSA——八通道小型可插拔(OSFP)多源協議(MSA)。OSFP(x8)及其更密集的變體 OSFP – XD(x16)都支持每條通道 224G PAM4 的最新信號速率(例如 8 x 200G = 1.6 Tbps 以太網)。它們與 PCIe Gen5 / CXL 1.1、2.0(32G NRZ)、PCIe Gen6 / CXL 3.x(64G PAM4)和 PCIe Gen7 / CXL 4.x(128G PAM4)兼容。這個 OSFP 布線系統在 PCIe 領域至少在未來兩代內都具有前瞻性。它也為在電氣層面重用以太網 I/O 的 UALink 做好了準備。
CDFP——CDFP 是 400(羅馬數字 CD)形式可插拔的縮寫,旨在提供低成本、高密度的 400 千兆以太網連接。