DeepSeek能以極低成本提供在線服務(wù),而英偉達開源的NVIDIA Dynamo也要類似的效果。英偉達創(chuàng)始人黃仁勛也表示,Dynamo可以幫AI工廠實現(xiàn)降本增效。他所說的AI工廠,一般指提供“智能”產(chǎn)品的數(shù)據(jù)中心,也可以指提供AI服務(wù)的服務(wù)商(MaaS)。
英偉達的Dynamo讓AI推理服務(wù)成了一門不錯的業(yè)務(wù)
DeepSeek開源周之后,有提供DeepSeek在線服務(wù)提供商宣布停止提供DeepSeek服務(wù)。而在我看來,Dynamo是可以讓提供AI服務(wù)這件事,成為一門更好的業(yè)務(wù)。所以,Dynamo是一個值得所有AI專家都會關(guān)注的軟件。
黃仁勛在主題演講中再次提到了擴展定律的三條實現(xiàn)路徑。第一種是預(yù)訓(xùn)練,基于海量數(shù)據(jù)從無到有訓(xùn)練出幾千億權(quán)重參數(shù)的模型。第二種是后訓(xùn)練,包括微調(diào)、蒸餾之類的。第三種就是以長思考為代表的模式,指的就是DeepSeek-R1這類推理模型。
很顯然,推理模型將成為主流。OpenAI已經(jīng)表示,已經(jīng)發(fā)布的GPT 4.5將是最后一代非推理模型,以后傳統(tǒng)大語言模型會越來越少。DeepSeek-R1能引起轟動,很大程度上也是因為它是一個推理模型,其智能水平有目共睹。
推理模型通過長思考提高智能水平,過程中會產(chǎn)生大量的Token。英偉達加速計算總經(jīng)理兼副總裁Ian Buck表示,推理型AI帶來了百倍以上的Token市場機會,也將為數(shù)據(jù)中心市場帶來萬億美元規(guī)模的市場機遇。
當(dāng)然,考慮到推理模型的計算成本在顯著提高,如何降低推理成本就顯得尤為重要。為了此,英偉達才推出了Dynamo。Dynamo整體降低推理成本,而成本降低則會讓AI應(yīng)用進一步普及,普及則帶來巨大的市場增長。
Ian Buck表示,Dynamo可以讓服務(wù)提供商在“用戶交互體驗”和“整體tokens產(chǎn)量”之間靈活調(diào)整,獲得最好的業(yè)務(wù)回報。在我看來,這給了AI服務(wù)提供商更大的靈活性,也可以提供增加收入機會,讓AI服務(wù)成為一個更好的生意。
稍微解釋一下。
用戶交互體驗好跟不好,一般指的就是模型響應(yīng)的速度。如果AI模型能迅速響應(yīng)并輸出結(jié)果,這種服務(wù)的響應(yīng)速度快,用戶體驗非常好,而企業(yè)可以為這種高實時性的服務(wù)設(shè)定一個更高的價格,或者作為會員專享服務(wù)。
如果比較在意成本或者性價比,則可以考慮一次性處理大量請求。這樣一來,雖然每個請求的響應(yīng)速度會慢一些,但整體上能提高AI工廠的輸出效率,在有限的資源下提高整體業(yè)務(wù)產(chǎn)出的量。
英偉達的Dynamo是什么?是怎么做到的?
與深度求索面向DeepSeek模型的優(yōu)化不同,英偉達的Dynamo通用性顯然更強,它面向英偉達的Hopper和Blackwell顯卡優(yōu)化,它可以支持PyTorch框架,以及SGLang、NVIDIA TensorRT-LLM和vLLM這三個推理引擎。
所謂推理引擎,說白了就是運行大語言模型的工具,本地個人電腦上常用的是Ollama,企業(yè)大規(guī)模分布式部署則要使用SGLang、NVIDIA TensorRT-LLM和vLLM這些專用的推理引擎,這些可以更好地支持分布式推理和高并發(fā)。
我簡單學(xué)習(xí)了一下Dynamo的創(chuàng)新之處,發(fā)現(xiàn)它跟DeepSeek的優(yōu)化技術(shù)有很多“英雄所見略同”的感覺,以下是Dynamo的5大創(chuàng)新點:
1,Dynamo可以支持更靈活的資源配置。
Dynamo可以高效地編排和協(xié)調(diào)大量給到GPU的AI推理請求,協(xié)調(diào)并加速數(shù)千個 GPU之間的推理通信。它通過一個叫GPU 規(guī)劃器 (GPU Planner)的東西,能動態(tài)地添加和移除GPU,以適應(yīng)不斷變化的需求,從而避免GPU配置過度或不足。
這讓我想起了DeepSeek介紹的類似操作,DeepSeek在業(yè)務(wù)高峰期時會配置更多GPU進行推理。而在業(yè)務(wù)低峰期,比如在晚上,會把一部分GPU拿來做研發(fā)或者訓(xùn)練,如果不訓(xùn)練至少也能省一些電費。這應(yīng)該也是Dynamo所追求的效果。
2,Dynamo把處理階段和生成階段解耦,性能和靈活性都大大提高。
傳統(tǒng)做法中,由于處理階段(Prefill,預(yù)填充階段)和生成階段(Decode,輸出Token階段)的不平衡,會導(dǎo)致GPU有更多空閑時間。處理階段是計算密集型的,而生成階段是延遲敏感型的。如果能把兩者解耦,不僅能提高利用率,還能提高整體吞吐。
Dynamo將大模型的處理階段和生成階段進行了解耦。這首先帶來了性能的提升,上圖顯示,單節(jié)點性能提升30%,雙節(jié)點提升100%。如果GPU數(shù)量越多,分布式并行處理的優(yōu)勢越明顯,效率提升越高。
而且,將處理階段和生成階段解耦之后,Dynamo提供了更高的靈活性。它支持靈活設(shè)置首次令牌時間 (TTFT) 和令牌間延遲 (ITL)。AI技術(shù)服務(wù)商可以優(yōu)先考慮更快的TTFT、更低的 ITL,或者更高的吞吐量,通過類似會員專享的服務(wù)獲得額外收入。
3,Dynamo支持智能路由技術(shù),可減少重復(fù)計算,提升性能。
模型推理過程中,我們發(fā)給模型的文字(或者圖片)都會生成KV Cache,如果后續(xù)發(fā)給模型的內(nèi)容跟之前有重合,那就可以利用緩存的結(jié)果直接輸出,這樣就不用重新計算了,輸出速度也更快。
針對這個特性,Dynamo提供了一種更智能的路由方法。它不是根據(jù)負載繁忙程度來選節(jié)點,而是根據(jù)緩存數(shù)據(jù)的情況來進行路由,智能選擇緩存了最適合處理當(dāng)前請求的節(jié)點。最終讓TTFT,平均請求延遲,以及整體吞吐量都得到了優(yōu)化。
4,Dynamo支持把KV Cache卸載到CPU、SSD甚至是對象存儲上。
剛才說了KV Cache是干啥的了,默認情況下它是存放在顯存里的,如果進行多輪對話就會占用更多顯存。然而,眾所周知,顯存是非常稀缺的資源,很多人為了大容量顯存就得買價格高很多的高端顯卡,高端顯卡的成本自然也很高。
Dynamo提供了一個叫顯存管理器 (Memory Manager)的東西,目前已經(jīng)支持把KV Cache卸載到CPU用的DRAM內(nèi)存上,下一步還打算把KV Cache放到SSD上,未來甚至還打算支持放到通過網(wǎng)絡(luò)訪問的對象存儲上,簡直了。
把KV Cache從顯存中搬到DRAM之后,GPU顯存得到釋放,GPU處理新請求的效率也直線上升,“首個token響應(yīng)時間”(TTFT)也大大縮短,用戶體驗顯著改善。
5,支持數(shù)據(jù)跨介質(zhì)高效傳輸?shù)牡脱舆t通信庫——NIXL
NIXL是一種數(shù)據(jù)傳輸工具,可以優(yōu)化數(shù)據(jù)在AI推理系統(tǒng)內(nèi)部不同存儲介質(zhì)之間的傳輸過程。傳統(tǒng)的數(shù)據(jù)傳輸庫只支持一種介質(zhì),而NIXL具備跨多種存儲介質(zhì)傳輸數(shù)據(jù)的能力。
介紹中提到,NIXL能高效地在不同內(nèi)存設(shè)備和快速存儲設(shè)備間并完成數(shù)據(jù)傳輸,可能是指在GPU顯存、CPU內(nèi)存或者SSD之間,是用來優(yōu)化KV Cache傳輸?shù)?,也是一個能提高性能的工具。
Dynamo已經(jīng)引起了廣泛關(guān)注
在這么多創(chuàng)新技術(shù)的聯(lián)合之下,效果也確實非常誘人。在GPU數(shù)量相同的情況下,Dynamo可將 NVIDIA Hopper平臺上運行 Llama 模型的 AI工廠性能和收益翻倍。
在由GB200 NVL72機架組成的大型集群上運行 DeepSeek-R1時,Dynamo的智能推理優(yōu)化也可將每個GPU生成的 Token數(shù)量提高30倍以上??磥韺π嘛@卡架構(gòu)的優(yōu)化加成更大。
英偉達提到,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST,都將受益于Dynamo。
Perplexity AI 首席技術(shù)官 Denis Yarats 表示:“我們期待通過 NVIDIA Dynamo 及其增強的分布式服務(wù)能力,進一步提高推理服務(wù)效率,滿足全新 AI 推理模型的計算需求?!?/p>
Cohere 工程部門高級副總裁 Saurabh Baji 表示:“我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗?!?/p>
Together AI 首席技術(shù)官 Ce Zhang 表示:“NVIDIA Dynamo 的開放性和模塊化使我們能夠?qū)⑵浣M件無縫嵌入引擎,以滿足更多請求,同時優(yōu)化資源利用率,從而最大化我們在加速計算方面的投資。我們很高興能夠利用該平臺的突破性功能,經(jīng)濟高效地為用戶提供開源推理模型。”
NVIDIA Dynamo將作為 NVIDIA NIM 微服務(wù)推出,并在未來版本中由 NVIDIA AI Enterprise 軟件平臺提供支持。想要高效推理模型的專家應(yīng)該都不會錯過Dynamo吧。