帶著這些問題,DOIT總編宋家雨特邀Supermicro北京公司總經(jīng)理李運杰進(jìn)行了專訪。
以下為采訪實錄:
宋家雨:液冷解決方案和風(fēng)冷解決方案各有什么優(yōu)勢?
李運杰:在人工智能、大型語言模型(LLMs)和高性能計算(HPC)快速發(fā)展的背景下,液冷解決方案因其高效性在某些應(yīng)用場景中已成為首選。然而,對于無法采用液冷方案的數(shù)據(jù)中心,風(fēng)冷解決方案仍然是一個理想的選擇。Supermicro在2024年臺北國際電腦展(COMPUTEX 2024)上展示的SuperCluster產(chǎn)品,提供了風(fēng)冷和液冷兩種技術(shù)選項,以滿足不同應(yīng)用場景的需求,幫助客戶最大化運營效率。
液冷解決方案的優(yōu)勢在于其顯著的高效率,特別是在處理大型語言模型、生成式AI和云原生應(yīng)用等高密度和高功率系統(tǒng)時。與傳統(tǒng)風(fēng)冷解決方案相比,Supermicro的液冷技術(shù)可以減少數(shù)據(jù)中心多達(dá)40%的電力消耗,使其成為高性能計算需求場景(如人工智能、機器學(xué)習(xí)和大規(guī)模數(shù)據(jù)處理)的理想選擇。此外,液冷技術(shù)還允許更高密度的硬件配置,這對于空間受限的數(shù)據(jù)中心來說非常有利,尤其是在需要在有限物理空間內(nèi)實現(xiàn)大量計算能力的應(yīng)用場景中。液冷技術(shù)更適合于持續(xù)運行的服務(wù)器,尤其是在高性能計算需求的場景下。
風(fēng)冷解決方案則適用于通用型服務(wù)器和中等散熱需求的應(yīng)用。它通常用于較小的數(shù)據(jù)中心或標(biāo)準(zhǔn)IT基礎(chǔ)設(shè)施中,這些場景可能不需要高密度計算,或者系統(tǒng)并非設(shè)計為全天候滿負(fù)荷運行。風(fēng)冷技術(shù)因其成本效益和通用性,在這些應(yīng)用場景中提供了一個理想的解決方案。
總結(jié)來說,Supermicro的SuperCluster產(chǎn)品通過提供液冷和風(fēng)冷兩種選項,使客戶能夠根據(jù)其業(yè)務(wù)需求和數(shù)據(jù)中心的特定條件選擇最合適的冷卻技術(shù)。無論是追求高效率和節(jié)能的高性能計算場景,還是需要成本效益和通用性的中等負(fù)載應(yīng)用,Supermicro都能提供定制化的解決方案,以優(yōu)化客戶的運營效率。
宋家雨:GPU性能提升帶來的服務(wù)器功耗一路飆升,對此需要在設(shè)計服務(wù)器時采取哪些針對性的設(shè)計?Supermicro是怎么做的?
李運杰:面對GPU性能提升帶來的功耗挑戰(zhàn),Supermicro采取了一系列系統(tǒng)級和機架級的優(yōu)化措施。
就系統(tǒng)級優(yōu)化而言,Supermicro致力于將服務(wù)器工作負(fù)載與GPU設(shè)計提升相匹配,以減少應(yīng)用運行時的功耗。我們注意到,隨著GPU技術(shù)的迭代,每一代GPU都能在相同功率下完成更多的工作量。因此,我們精心選擇整套系統(tǒng),包括CPU和GPU的組合,確保在功耗預(yù)算內(nèi)滿足服務(wù)水平協(xié)議(SLA)的要求。此外,我們通過選擇針對特定工作負(fù)載優(yōu)化的服務(wù)器,配備執(zhí)行相應(yīng)任務(wù)所需的特定技術(shù),從而提高能源效率。使用共享部分組件的多節(jié)點服務(wù)器或刀片服務(wù)器,也是我們降低能耗的有效策略。
在機架層面,Supermicro的解決方案專注于實現(xiàn)最佳電力分配和冷卻效率。我們使用高效電源和先進(jìn)冷卻系統(tǒng),確保整個機架的能效。例如,我們的液冷機架采用了自主設(shè)計的冷卻液分配單元(CDU),該單元有效管理冷卻液的循環(huán),從高密度部署的服務(wù)器中高效散熱,顯著提高了電源使用效率(PUE),并通過減少冷卻相關(guān)的能源費用來降低總成本(TCO)。Supermicro還提供預(yù)配置的機架級人工智能(AI)解決方案,這些方案專為優(yōu)化能效而設(shè)計。它們采用了既優(yōu)化性能又節(jié)能的組件,支持多種電源配置(208、230、415或480VAC)和集成48VDC的設(shè)施,進(jìn)一步提升了數(shù)據(jù)中心運營的能效。
特別值得一提的是,Supermicro的液冷技術(shù),包括直抵芯片冷卻和浸沒式冷卻,顯著降低了冷卻IT設(shè)備所需的能耗。液體的熱傳遞性能優(yōu)于空氣,使得使用液冷系統(tǒng)的冷卻成本可能僅為氣冷系統(tǒng)的十分之一。我們的液冷機架針對高冷卻液溫度進(jìn)行了優(yōu)化,提供了卓越的能效,能夠?qū)?shù)據(jù)中心的能耗降低高達(dá)40%。
Supermicro通過這些創(chuàng)新的優(yōu)化措施,不僅滿足了日益增長的GPU性能需求,同時也確保了服務(wù)器設(shè)計的能效和可持續(xù)性。
宋家雨:優(yōu)化服務(wù)器架構(gòu)設(shè)計的好處是什么?
李運杰:優(yōu)化服務(wù)器設(shè)計對性能、能源效率、運營成本和環(huán)境可持續(xù)性具有顯著影響,帶來了各種好處。因此,通過持續(xù)優(yōu)化服務(wù)器設(shè)計,可以在實現(xiàn)業(yè)務(wù)和環(huán)境目標(biāo)方面達(dá)到雙贏的結(jié)果。例如,Supermicro的創(chuàng)新服務(wù)器設(shè)計支持多種CPU和GPU,并可輕松更換組件,從而減少了將整個服務(wù)器報廢而產(chǎn)生的電子廢棄物。這種設(shè)計通常被稱為解耦設(shè)計。此外,由于客戶現(xiàn)在可以升級某些組件而不是整臺服務(wù)器,升級服務(wù)器所需的開支也將低于以往。
宋家雨:針對中國國內(nèi)市場,Supermicro的策略是什么?
李運杰:人工智能的廣泛應(yīng)用擴展了服務(wù)器市場,吸引了更多中國公司參與競爭,并推動了市場增長。此外,AI技術(shù)的持續(xù)發(fā)展催生了新的服務(wù)器應(yīng)用場景和需求,例如邊緣計算和深度學(xué)習(xí)訓(xùn)練,進(jìn)一步推動了服務(wù)器技術(shù)領(lǐng)域的創(chuàng)新和發(fā)展。
宋家雨:綠色節(jié)能技術(shù)會成為Supermicro市場競爭優(yōu)勢嗎?
李運杰:在全球變暖和氣候挑戰(zhàn)日益嚴(yán)峻的今天,綠色節(jié)能技術(shù),即綠色計算,已成為Supermicro的一項重要競爭優(yōu)勢。隨著人工智能和大型語言模型的迅速發(fā)展,服務(wù)器的能耗問題也日益凸顯。在這樣的背景下,找到計算能力需求與能源消耗之間的平衡點變得至關(guān)重要。
Supermicro致力于通過其綠色技術(shù),尤其是最新的液冷技術(shù),幫助客戶實現(xiàn)業(yè)務(wù)目標(biāo)與環(huán)境、社會及治理(ESG)的雙重目標(biāo)。我們的液冷機架經(jīng)過特別優(yōu)化,以適應(yīng)不同的溫度條件,從而顯著提升了能源效率。這一創(chuàng)新技術(shù)能夠?qū)?shù)據(jù)中心的電力使用降低40%,幫助客戶大幅度減少運營成本。
這些技術(shù)的優(yōu)勢不僅體現(xiàn)在降低運營成本和減少環(huán)境影響上,它們還滿足了市場對環(huán)保IT基礎(chǔ)設(shè)施的日益增長的需求。Supermicro通過引領(lǐng)綠色計算的潮流,吸引了越來越多注重可持續(xù)發(fā)展的合作伙伴。我們致力于幫助客戶實現(xiàn)其環(huán)保目標(biāo),共同推動一個更加綠色、高效的計算未來。
宋家雨:對于CXL、EDSFF SSD,特別是E1.L、E3.L,從服務(wù)器設(shè)計的角度,Supermicro如何看待?有沒有一些針對性的部署?
李運杰:CXL和EDSFF技術(shù)正在重新定義服務(wù)器市場的未來。EDSFF建立了一種我們認(rèn)為在未來將占主導(dǎo)地位的接口形態(tài),而CXL提供了一種通過CXL內(nèi)存擴展器增加服務(wù)器內(nèi)存容量的新方法。
Supermicro在行業(yè)內(nèi)率先推出了支持EDSFF的服務(wù)器和存儲系統(tǒng)。我們提供業(yè)界最廣泛的NVMe、混合NVMe和SATA系統(tǒng),EDSFF的加入進(jìn)一步鞏固了我們在NVMe市場的領(lǐng)導(dǎo)地位。這些優(yōu)化的NVMe驅(qū)動器能夠在1U的緊湊空間內(nèi)支持多達(dá)32個熱插拔驅(qū)動器,非常適合執(zhí)行高性能工作負(fù)載或為IOPS優(yōu)化的存儲專用軟件。在高性能存儲產(chǎn)品系列中,Supermicro推出的系統(tǒng)將支持下一代EDSFF外形尺寸,包括E3.S和E1.S裝置,這些裝置的外形尺寸能夠容納16和32個高性能PCIe Gen5 NVMe驅(qū)動器槽。這不僅提升了存儲密度,也增強了系統(tǒng)的擴展性和靈活性。
新型Supermicro X14系統(tǒng)每節(jié)點將支持最多576個核心,并且提供面向所有裝置類型的PCIe 5.0、CXL 2.0接口,以及NVMe存儲和最新型GPU加速器。這些技術(shù)的綜合應(yīng)用為運行AI工作負(fù)載的用戶大幅度降低了應(yīng)用程序執(zhí)行所需的時間。
而CXL作為一項新興技術(shù),Supermicro已經(jīng)在服務(wù)器中全面支持。我們認(rèn)識到CXL在內(nèi)存擴展和加速計算方面的潛力,并通過我們的產(chǎn)品設(shè)計,確??蛻裟軌虺浞掷肅XL技術(shù)帶來的優(yōu)勢。通過這些前瞻性的技術(shù)部署,Supermicro致力于為客戶提供最先進(jìn)、最高效的服務(wù)器解決方案,以滿足他們不斷增長的業(yè)務(wù)需求。
宋家雨:直流電源機架母線技術(shù)的主要適用場景是什么?
李運杰:直流母線技術(shù)主要用于數(shù)據(jù)中心,以優(yōu)化成本和效率。除了能避免線纜雜亂外,直流母線比傳統(tǒng)電源便宜得多,并且可以直接連接到服務(wù)器。這使其導(dǎo)電性能更好,從而提高了效率,減少了能量的熱損耗。