在國內外互聯(lián)網巨頭接連提出“All in AI”,花高價買顯卡、堆算力之際,他帶領的DeepSeek卻憑借對訓練方法和模型架構的創(chuàng)新,使得訓練出的模型在大幅度降低算力成本的同時,性能上直接趕超美國AI巨頭OpenAI投入超百倍的頂級模型GPT-4o,也引得雷軍拿出千萬年薪招攬該項目團隊的核心參與者。
在外界的關切之下,梁文鋒卻格外低調,這兩年,他很少接受媒體的采訪,也鮮少公開露面參加活動。昨天《新聞聯(lián)播》播出的總理座談會的畫面,讓許多人第一次看到了他的真實面孔。
一位“80后”的深度求索之路
梁文鋒,1985年出生于廣東省湛江市。2002年,這位對數(shù)學建模充滿熱情的年輕人考入浙江大學電子信息工程專業(yè),并在隨后的幾年里繼續(xù)深造,最終于2010年獲得信息與通信工程碩士學位。
在校期間,他對金融市場產生了濃厚的興趣。特別在2008年全球金融危機之際,他帶領團隊探索了機器學習技術在全自動量化交易中的應用潛力,這一經歷為他日后的職業(yè)生涯奠定了堅實的基礎。
畢業(yè)后,梁文鋒將目光轉向更廣闊的金融市場。
2013年,他與浙大同學徐進共同創(chuàng)立了杭州雅克比投資管理有限公司,兩年后又成立了杭州幻方科技有限公司,致力于通過數(shù)學和人工智能進行量化投資。2015年的市場波動中,幻方依靠先進的高頻量化策略取得了令人矚目的成績。
2016年是幻方的重要轉折點。這一年,公司推出了首個基于深度學習的交易模型,并實現(xiàn)了所有量化策略的AI化轉型。2018年,幻方正式確立了以AI為核心的發(fā)展戰(zhàn)略。然而,隨著業(yè)務的快速擴展,算力瓶頸逐漸顯現(xiàn)。
為解決計算資源不足的問題,2019年,梁文鋒帶領團隊自主研發(fā)了“螢火一號”訓練平臺,總投資近2億元,搭載了1100塊GPU。兩年后,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。
2021年,幻方的資產管理規(guī)模突破千億大關,躋身國內量化私募領域的“四大天王”之列。2023年,他宣布將正式進軍通用人工智能領域,并創(chuàng)辦了深度求索DeepSeek,專注于做真正人類級別的人工智能。
2024年5月,DeepSeek發(fā)布混合專家語言模型DeepSeek-V2。同年12月,DeepSeek-V3問世,這款性能優(yōu)越且性價比極高的大語言模型,被硅谷同行譽為“來自東方的神秘力量”。
“我們只是不小心成了一條鯰魚”
DeekSeek的走紅,源于業(yè)內一場殘酷的大模型價格戰(zhàn)。
2024年5月初,DeekSeek對外宣布,其開源模型DeepSeek-V2的推理成本被降到每百萬token僅 1塊錢,約等于GPT-4 Turbo的七十分之一。隨后,智譜、豆包、通義千問、文心一言等國內排名靠前的大模型先后跟進,最高降幅甚至高達97%經此一役,DeepSeek解鎖了一個新綽號——AI界的拼多多。
對于這場由自己掀起的價格戰(zhàn),梁文鋒的回復云淡風輕。他說:“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚?!彼硎荆瑳]想到價格讓大家這么敏感。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。
一家初創(chuàng)企業(yè),為何能將大模型昂貴的推理價格極限壓低?
這源自于DeepSeek對模型架構進行了全方位的創(chuàng)新。有研究者指出,它提出的一種嶄新的機制架構,把顯存占用降到了過去最常用架構的5%-13%,再加上獨創(chuàng)的結構創(chuàng)新,最終促成了成本的下降。
對此,有位知名的科技博主打了一個形象的比喻:OpenAI的訓練方法是“大水漫灌式”,拿來的數(shù)據(jù)放到“黑盒”里訓練,反復訓練直至成功,因此很燒錢;而DeepSeek是先一步利用算法,對數(shù)據(jù)進行總結和分類,然后輸送給大模型。這意味著大模型的訓練相比“黑盒”變得更加規(guī)律和透明化。
但是,DeepSeek出色的成就與其團隊規(guī)模形成了鮮明的對比。根據(jù)公開報道,DeepSeek的員工規(guī)模不及OpenAI的1/5,百人出頭的公司中,算子、推理框架、多模態(tài)等研發(fā)工程師以及深度學習方面的研究人員共有約70人,主要在北京分部,其余30多人在杭州總部,多為前端、產品以及商務人員。
讓人驚奇的是,這家公司內并沒有外界推論的高深莫測的奇才。梁文鋒曾透露,員工都是一些Top高校的應屆畢業(yè)生、沒畢業(yè)的博四、博五實習生,還有一些畢業(yè)才幾年的年輕人。他說,在人工智能領域,“前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人?!?/p>
在梁文鋒看來,在這一波人工智能的浪潮中,DeepSeek的出發(fā)點,不是趁機賺一筆,而是走到技術的前沿,去推動整個生態(tài)發(fā)展。他說:“過去很多年,中國公司習慣了別人做技術創(chuàng)新,我們拿過來做應用變現(xiàn),但這并非是一種理所當然?!?/p>
“用最長期的眼光去回答最大的問題”
進入DeepSeek的官方微信公眾號,一段簡潔但有力的介紹語映入眼簾:
“投身于探索AGI的本質,不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題?!?/p>
從2023年11月2日開始更新以來,DeepSeek的公眾號在1年多的時間里只更新了38篇文章,且大多數(shù)為新模型發(fā)布、升級以及招募各類人員的信息。從2024年12月底開始,公眾號發(fā)出的三篇文章的閱讀量均在10萬+以上。
這也從側面反映,外界對這家神秘的公司產生了強烈的好奇心。
一家量化基金為什么要做大模型?為什么給自己的定位是“做研究、做探索”?研究經費哪里來?對商業(yè)模式做了哪些推演和設想?2023年5月下旬,創(chuàng)業(yè)十余年后第一次公開接受“暗涌Waves”采訪的梁文鋒,集中回答了這些問題。
他說,通用人工智能可能是下一個最難的事之一。因此,“對我們來說,這是一個怎么做的問題,而不是為什么做的問題?!绷何匿h表示,團隊成員的研發(fā)激情源自于一種好奇心驅動。
對于企業(yè)的商業(yè)回報和盈利模式,他坦言道,“如果一定要找一個商業(yè)上的理由,它可能是找不到的,因為劃不來。但現(xiàn)在比較確定的是,既然我們想做這個事,又有這個能力,這個時間點上我們就是最合適人選之一?!?/p>
最近一段時間,DeepSeek的動作不斷。1月20日晚,它正式發(fā)布DeepSeek-R1,并同步開源模型權重。文中對產品的介紹如下:該模型在后訓練階段大規(guī)模使用了強化學習技術,在僅有極少標注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。
后文還寫道:在此,我們將DeepSeek-R1 訓練技術全部公開,以期促進技術社區(qū)的充分交流與創(chuàng)新協(xié)作。
此前,有媒體在采訪過梁文鋒之后,將這個團隊的行為總結為“一個更極致的中國技術理想主義故事”。
但在極致的技術理想主義之外,低調少言的梁文鋒也是一位冷靜的現(xiàn)實主義者。他曾表示,英偉達的領先,不只是一個公司的努力,而是整個西方技術社區(qū)和產業(yè)共同努力的結果。因為,他們能看到下一代的技術趨勢,手里有路線圖。中國AI的發(fā)展,同樣需要這樣的生態(tài)。(潮新聞客戶端 胡淼)