DeepSeek-V3 架構(gòu)圖

DeepSeek-V3還引入了兩項創(chuàng)新

除了延續(xù)基礎(chǔ)架構(gòu)保證強大性能外,DeepSeek-V3還引入了兩項創(chuàng)新:

  1. 無輔助損失的負(fù)載均衡策略:通過動態(tài)監(jiān)控并調(diào)整專家的工作負(fù)載,讓它們均衡運行,同時不影響整體模型性能。
  1. 多詞元預(yù)測(MTP):支持模型同時預(yù)測多個未來詞元。

這一創(chuàng)新不僅提高了訓(xùn)練效率,還讓模型的生成速度提升了三倍,從20TPS大幅提高至60TPS,每秒能生成60個token。

成本被壓縮到1%

總體而言,在預(yù)訓(xùn)練階段,DeepSeek-V3處理1萬億個詞元所需的H800 GPU時間為18萬小時,若采用配備2048塊H800 GPU的集群進(jìn)行加速,則整個預(yù)訓(xùn)練過程可在短短3.7天內(nèi)完成。這一階段的總耗時不超過兩個月,累計消耗了266.4萬GPU小時。

此外,上下文長度的擴展額外耗費了11.9萬GPU小時,而后期的訓(xùn)練工作(包括監(jiān)督微調(diào)和強化學(xué)習(xí)等)則消耗5000GPU小時。因此,DeepSeek-V3的總訓(xùn)練時長達(dá)到了278.8萬GPU小時。

若以每GPU小時2美元的成本計算,該模型的整體訓(xùn)練費用約為557.6萬美元。需要注意的是,這一費用僅涵蓋了正式訓(xùn)練階段的開支,并未包括前期在模型架構(gòu)設(shè)計、算法開發(fā)以及數(shù)據(jù)處理等方面的研究與消融實驗費用。然而,相較于通常訓(xùn)練大型語言模型所需的數(shù)億美元成本,DeepSeek-V3的訓(xùn)練成本顯得相對較低。例如,據(jù)估計,Llama-3.1的訓(xùn)練成本超過了5億美元。

2

一經(jīng)開源發(fā)布,引發(fā)熱烈關(guān)注

AI圈激烈討論,眾說紛紜

AI科學(xué)家Andrej Karpathy,作為OpenAI的初創(chuàng)成員之一,對DeepSeek-V3的超低訓(xùn)練成本感到震驚,他指出:“在資源有限的情況下,這無疑是一項令人矚目的研究與工程壯舉?!盞arpathy認(rèn)為,實現(xiàn)這種級別的能力原本預(yù)計需要接近16K GPU的集群,而現(xiàn)在DeepSeek-V3所提出的集群規(guī)模卻接近100K GPU。這是否預(yù)示著前沿大型語言模型(LLM)不再依賴于超大規(guī)模的GPU集群?

在AI領(lǐng)域激烈的競爭中,資源約束被視作一種積極的驅(qū)動力。領(lǐng)導(dǎo)英偉達(dá)具身AI團(tuán)隊的高級研究科學(xué)家Jim Fan,曾師從李飛飛教授,他對此表示贊同:“資源限制實際上是一件好事。在競爭激烈的AI領(lǐng)域,生存的本能是推動我們?nèi)〉猛黄频年P(guān)鍵動力。”

此外,關(guān)于DeepSeek-V3采用H800 GPU實現(xiàn)低訓(xùn)練成本的話題,也引發(fā)了網(wǎng)友對美國芯片出口管制的討論。數(shù)據(jù)科學(xué)家、Kaggle知名用戶Bojan Tunguz評論道:“對所有高端半導(dǎo)體實施的出口禁令,可能會以最糟糕的方式適得其反。這些禁令似乎促使中國研究人員變得更加聰明和節(jié)儉。這也似乎印證了我的猜想,即我們離掌握AI機器學(xué)習(xí)領(lǐng)域的最佳算法還有很長的路要走?!?/p>

12月27日,奧特曼在推特上突然發(fā)表言論,稱“創(chuàng)新和冒險的行為遠(yuǎn)比復(fù)制已知的成功要艱難得多”。

鑒于發(fā)布時間和DeepSeek-V3的討論熱度,不少人解讀這是在陰陽DeepSeek。

全網(wǎng)熱烈實測中

盡管DeepSeek-V3的訓(xùn)練成本相對較低,但它卻迅速崛起,成為了當(dāng)前市場上性能最強的開源大型模型之一。為了驗證其AI性能,該公司進(jìn)行了一系列基準(zhǔn)測試,并將DeepSeek-V3與其他領(lǐng)先的開源模型,如Llama-3.1-405B和通義千問的Qwen 2.5-72B,進(jìn)行了對比。結(jié)果顯示,DeepSeek-V3在多數(shù)基準(zhǔn)測試中均展現(xiàn)出了優(yōu)于這些模型的表現(xiàn),甚至在某些測試中,它的表現(xiàn)還超過了閉源的GPT-4o模型。僅在以英語為主要考察內(nèi)容的SimpleQA和FRAMES測試中,DeepSeek-V3的成績略低于OpenAI模型,分別為24.9分和73.3分,而OpenAI模型則分別獲得了38.2分和80.5分。

然而,DeepSeek-V3在以中文和數(shù)學(xué)為主要考察內(nèi)容的基準(zhǔn)測試中表現(xiàn)尤為突出,其得分高于所有同類大型模型。特別是在Math-500測試中,DeepSeek-V3以90.2分的高分遠(yuǎn)超第二名Qwen的80分。

目前,能夠與DeepSeek-V3一較高下的模型可能僅有Anthropic的o1和Claude 3.5 Sonnet。據(jù)悉,在GPQA Diamond(博士級科學(xué)問題)基準(zhǔn)測試中,o1以76%的分?jǐn)?shù)領(lǐng)先,而DeepSeek則以59.1%的分?jǐn)?shù)緊隨其后。此外,o1的完整版在多項基準(zhǔn)測試中均擊敗了DeepSeek。同樣,Claude 3.5 Sonnet也在MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified和Aider-Edit等測試中,以更高的分?jǐn)?shù)超越了DeepSeek-V3。

寫在最后

在中國眾多致力于大模型創(chuàng)新的初創(chuàng)企業(yè)中,Deepseek展現(xiàn)了一條獨樹一幟的發(fā)展路徑。這家企業(yè)以“深度求索”為中文名,是由知名私募機構(gòu)幻方量化孕育出的子公司。2023年4月,幻方宣布組建新團(tuán)隊,集中優(yōu)勢資源,全力探索通用人工智能(AGI)的本質(zhì),并在短短一年多時間內(nèi)取得了顯著進(jìn)展?;梅阶猿闪⒅醣惚砻鳎溟L期將營業(yè)收入的大部分投入到人工智能領(lǐng)域,旨在構(gòu)建頂尖的AI硬件基礎(chǔ)設(shè)施,開展大規(guī)模研究,以揭開人類尚未觸及的智慧面紗。

與那些獲得大型科技公司投資的AI初創(chuàng)企業(yè),如月之暗面、智譜AI、Minimax、百川智能等相比,DeepSeek并未直接依附于任何科技巨頭。然而,在算力儲備方面,DeepSeek卻毫不遜色于這些大廠。有云計算領(lǐng)域的專家指出,擁有1萬枚英偉達(dá)A100芯片是構(gòu)建AI大模型的算力基準(zhǔn)。當(dāng)中國的云服務(wù)商因GPU芯片供應(yīng)緊張而受限時,幻方卻早已預(yù)見性地布局了大模型賽道。據(jù)報道,除了商湯科技、百度、騰訊、字節(jié)跳動、阿里巴巴等科技巨擘外,幻方也掌握了超過1萬枚GPU。

幻方量化和Deepseek的創(chuàng)始人梁文鋒在接受媒體采訪時透露,幻方對算力的積累并非一蹴而就。早在2019年,幻方便已斥資2億元自主研發(fā)深度學(xué)習(xí)訓(xùn)練平臺“螢火一號”,該平臺配備了1100塊GPU。至2021年,“螢火二號”的投資額更是飆升至10億元,搭載了大約1萬張英偉達(dá)A100顯卡。就在這一年后,OpenAI推出了ChatGPT的公開測試版,從而在全球范圍內(nèi)掀起了一股新的AI熱潮。

分享到

lixiangjing

算力豹主編

相關(guān)推薦