有網(wǎng)友指出,在一項讓模型完成225項編程任務的名為aider polyglot的基準測試中,Llama 4 Maverick只取得了16%的成績,遠低于Gemini 2.5 Pro、Claude 3.7 Sonnet和DeepSeek -V3等規(guī)模相近的舊模型。
關鍵指控鏈:
訓練數(shù)據(jù)污染:
團隊在訓練后期將LeetCode、MATH等測試集數(shù)據(jù)混入訓練數(shù)據(jù),導致模型在基準測試中「背答案」式作弊;
版本欺詐:
多位AI領域的研究人員在社交媒體上集中反饋了同一問題:Meta在其官方公告中提及,LM Arena平臺上的Maverick版本被描述為“實驗性聊天版本”。
深入探究后,人們發(fā)現(xiàn),在Llama官方網(wǎng)站的性能對比圖表底部,有一行小字標注:“Llama 4 Maverick optimized for conversationality.” 直譯為“針對對話能力優(yōu)化的Llama 4 Maverick版本”——這一表述略顯巧妙,或可理解為“留有空間”。
這種“差異化處理”給開發(fā)人員帶來了挑戰(zhàn),使得他們難以精準預估該模型在實際應用場景中的具體表現(xiàn)。有研究人員指出,通過實際測試發(fā)現(xiàn),可公開下載的Maverick版本與LM Arena平臺上托管的模型在行為模式上存在顯著差異。
行業(yè)內卷卻物極必反
行業(yè)反思:AI競賽的背后的陰暗面
商業(yè)壓力與技術倫理的致命沖突
為達成扎克伯格“4月底必須交付”的鐵令,不惜以數(shù)據(jù)污染為代價,換取短期指標的攀升。這種“唯結果論”的短視行為,猶如一面鏡子,清晰地映照出AI行業(yè)普遍存在的集體焦慮。當技術理想主義在資本的強大裹挾下,顯得如此脆弱不堪,倫理審查這一原本至關重要的環(huán)節(jié),竟淪為了可以隨意犧牲的“冗余項”。企業(yè)為了追求商業(yè)利益最大化,在技術的道路上狂奔,卻將倫理道德拋諸腦后,這種短視行為不僅損害了用戶的利益,更對整個AI行業(yè)的健康發(fā)展構成了嚴重威脅。
基準測試的公信力遭受質疑
LM Arena等各類榜單,本應是衡量AI模型性能的公正標尺,如今卻淪為了“刷分游戲場”。Meta通過推出特供版本,人為地抬高自身排名,而普通用戶所獲得的模型卻只是功能受限的“閹割版”。這種“數(shù)據(jù)造假—虛假繁榮—信任瓦解”的惡性循環(huán),如同病毒般在AI行業(yè)中迅速蔓延,無情地摧毀著原本脆弱的評價體系。當榜單上的排名不再真實反映模型的性能,當開發(fā)者無法依據(jù)這些排名做出準確的決策,整個AI行業(yè)的評價體系便陷入了混亂與危機之中。
結語
Llama 4事件猶如一面鏡子,映照出AI行業(yè)的深層矛盾:當企業(yè)為追求商業(yè)利益在技術道路上狂奔時,倫理道德與用戶利益被拋諸腦后。這不僅損害了Meta的品牌形象,更對整個行業(yè)的健康發(fā)展構成威脅。正如中國信通院所倡導的 “可信落地” 理念,AI技術的進步需要建立在透明、可驗證的倫理框架之上。唯有如此,“開源民主化” 才能真正惠及人類,而非成為資本逐利的遮羞布。