最近,KTransformers項目團隊宣布,支持讓滿血版DeepSeek在英偉達RTX 4090D顯卡上運行。RTX 4090D是一個游戲顯卡,目前電商零售價大概在3萬人民幣左右,它能以極低的成本在本地運行滿血版的DeepSeek-R1模型。
KTransformers是一個可以利用CPU+GPU進行混合推理的項目,將部分計算卸載到CPU內(nèi)存,從而減少昂貴顯存的占用。它支持多種硬件和多種常見的大語言模型,可以降低大語言模型的部署門檻和成本。
類似的,llama.cpp也支持CPU+GPU混合推理,當模型超過顯存容量時,可以同時利用CPU和GPU來加速。
KTransformers是由清華大學的KVCache.AI團隊和趨境科技合作開發(fā)的項目。KVCache.AI是一個通過優(yōu)化緩存、調(diào)度、壓縮等技術(shù),提升大語言模型效率的項目,并且和趨境科技以及月之暗面公司合作開發(fā)而來,目標是推動學術(shù)研究和開源開發(fā)。
趨境科技Approaching.AI官網(wǎng)上寫道,他們在業(yè)界首創(chuàng)“以存換算”全系統(tǒng)推理架構(gòu),可以協(xié)同HBM、DRAM、SSD和CPU、GPU、NPU全系統(tǒng)異構(gòu)設(shè)備,突破顯存容量的限制,釋放全系統(tǒng)的存力和算力。
“突破顯存容量的限制”是重點。我們知道,原本大語言模型大多都運行在英偉達的高性能企業(yè)級顯卡上,顯卡的計算核心決定了運算的效率和速度,而顯存的容量直接決定著顯卡能否運行多大參數(shù)規(guī)模的大語言模型。
然而,顯存非常昂貴,高端的A100、H100可以提供80G的HBM顯存,但幾十萬一塊的成本太高了。而消費級的RTX 3090可以提供24G GDDR顯存,RTX 4090D也能提供24G顯存,是運行大語言模型的最有性價比的選擇。
如果只能利用顯存來運行大語言模型,那么單塊4090顯卡根本無法運行6710億參數(shù)的DeepSeek-R1。但如果能更充分地利用DRAM、甚至SSD的存儲空間,同時更多地利用CPU以及NPU的算力,則無疑是降低了模型的運行門檻。
2024年8月,KTransformers團隊宣布使用21GB顯存和136GB內(nèi)存配置的電腦來推理236B DeepSeek-Coder-V2 模型。并且,在BigCodeBench測試中,它的表現(xiàn)甚至優(yōu)于 GPT4-0613 模型。
2025年2月10日,KTransformers宣布V0.3預(yù)覽版可以用單個或者多個帶有24GB顯存的顯卡,以及382GB DRAM的設(shè)備來推理滿血版的Deepseek-R1和V3。在這種配置下,性能提升可達到llama.cpp的3~28倍。
V0.3預(yù)覽版支持Intel AMX加速內(nèi)核和專家選擇性激活方法,當然還有FP4量化技術(shù),14GB顯存和382GB DRAM的配置下,671B滿血版DeepSeek-Coder-V3/R1的預(yù)填充速度(開始輸出前)提升27.79倍,輸出文本速度實現(xiàn)了最多3.03倍的加速。
該項目認為,目前該項目主要瓶頸仍是CPU的計算速度和內(nèi)存帶寬,GPU對性能提升的貢獻相對較小。換言之,如果升級CPU和內(nèi)存,比如把它升級到英特爾至強6 6900P系列是完全有可能實現(xiàn)性能提升的。
我注意到,測試用的是2年前的第四代至強金牌6454S,現(xiàn)在已經(jīng)是至強6了。它的內(nèi)存是DDR5 4800,現(xiàn)在至強6支持6400,它支持的MRDIMM技術(shù)能拉到8800。此外,內(nèi)存通道也從8個變成了12個。跟2年前相比,內(nèi)存能力提升巨大。
當然,KTransformers也可以考慮升級到最新的英偉達RTX 5090D,它可以提供32GB的GDDR7顯存,比4090多了8G的顯存。不過,由于目前5090才剛發(fā)布不久,存在供貨不足的問題,搭建起來也比較麻煩。
不過,我個人倒是非常期待它多卡推理的表現(xiàn),比如,用多塊只有8G、12G或者16G顯存的顯卡做推理,這些顯卡的單價更低,可能會構(gòu)建比使用單個4090或者5090更低的方案。