OpenAI新模型o3和o4-mini等在數(shù)學(xué)競(jìng)賽、編程、指令遵循和工具調(diào)用方面的表現(xiàn)

與此同時(shí),OpenAI推出的o4-mini是一款輕量級(jí)模型,專(zhuān)為追求快速響應(yīng)與成本效益的推理任務(wù)而設(shè)計(jì)。盡管體積小巧、成本低廉,o4-mini在數(shù)學(xué)、編程及視覺(jué)任務(wù)上的表現(xiàn)卻令人矚目,實(shí)現(xiàn)了性能與資源消耗的完美平衡。

o4-mini在AIME 2024及2025基準(zhǔn)測(cè)試中脫穎而出,成為表現(xiàn)最優(yōu)的模型。專(zhuān)家評(píng)估顯示,在非STEM領(lǐng)域及數(shù)據(jù)科學(xué)等任務(wù)中,o4-mini同樣超越了其前身o3-mini。得益于其高效性,o4-mini支持的使用限制遠(yuǎn)高于o3,為解決需要深度推理能力的問(wèn)題提供了強(qiáng)大且高效的高容量、高吞吐量解決方案。

Altman發(fā)文盛贊新視覺(jué)推理模型:天才水平

圖像思考與工具鏈自主決策

視覺(jué)推理新范式

o3和o4-mini首次將圖像直接融入思維鏈(Chain-of-Thought),模型不僅能“看到”圖像,還能通過(guò)裁剪、旋轉(zhuǎn)、縮放等操作進(jìn)行深度分析。即使面對(duì)模糊、倒置或低質(zhì)量圖片,模型仍能準(zhǔn)確提取信息。例如,用戶(hù)上傳手繪草圖或白板照片,模型可結(jié)合Python代碼和網(wǎng)絡(luò)搜索工具,生成可視化圖表或解決方案。

工具調(diào)用智能化

兩款模型被訓(xùn)練為“AI智能體”,可自主調(diào)用ChatGPT內(nèi)置工具(如網(wǎng)頁(yè)搜索、Python代碼執(zhí)行、圖像生成),并動(dòng)態(tài)組合使用。例如,當(dāng)用戶(hù)詢(xún)問(wèn)“加州夏季能源使用趨勢(shì)”時(shí),模型會(huì)搜索公共數(shù)據(jù)、編寫(xiě)代碼預(yù)測(cè)、生成圖表并解釋關(guān)鍵因素,整個(gè)過(guò)程耗時(shí)不到1分鐘。

OpenAI通過(guò)強(qiáng)化學(xué)習(xí)(RL)優(yōu)化工具使用策略,模型不僅能判斷“何時(shí)用工具”,還能根據(jù)任務(wù)目標(biāo)靈活調(diào)整策略,例如在數(shù)學(xué)競(jìng)賽中先暴力計(jì)算再優(yōu)化解法。

二、性?xún)r(jià)比質(zhì)的飛躍

OpenAI稱(chēng)o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節(jié)省成本。在AME2025基準(zhǔn)測(cè)試中,性?xún)r(jià)比都遠(yuǎn)遠(yuǎn)超過(guò)前代模型。

o4-mini和o3-mini在成本和性能方面的對(duì)比:

o3o1在成本和性能方面的對(duì)比:

3

仍有三大局限性

推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足

推理鏈冗長(zhǎng):模型在執(zhí)行任務(wù)時(shí),可能進(jìn)行大量冗余或不必要的工具調(diào)用與圖像處理操作,致使思維鏈過(guò)長(zhǎng)。

感知失誤:盡管工具調(diào)用能正常推進(jìn)推理流程,但模型仍可能犯下基本的感知錯(cuò)誤,視覺(jué)層面的誤解會(huì)直接導(dǎo)致最終答案出現(xiàn)偏差。

可靠性欠佳:在多次嘗試解決問(wèn)題時(shí),模型可能會(huì)采用不同的視覺(jué)推理過(guò)程,部分過(guò)程可能導(dǎo)致錯(cuò)誤結(jié)果。

未來(lái)展望

OpenAI o3和o4-mini顯著提升了模型的視覺(jué)推理能力,這些模型在視覺(jué)感知任務(wù)上的提升,使其能夠解決之前模型難以觸及的問(wèn)題,標(biāo)志著模型向多模態(tài)推理邁出的重要一步。

OpenAI在博客中提到,他們將o系列的專(zhuān)業(yè)推理能力與GPT系列的自然對(duì)話(huà)能力和工具使用能力相結(jié)合,未來(lái)可以實(shí)現(xiàn)模型能支持無(wú)縫、自然的對(duì)話(huà),同時(shí)能主動(dòng)使用工具并解決更為復(fù)雜的問(wèn)題。

分享到

lixiangjing

算力豹主編

相關(guān)推薦