OpenAI新模型o3和o4-mini等在數(shù)學(xué)競(jìng)賽、編程、指令遵循和工具調(diào)用方面的表現(xiàn)
與此同時(shí),OpenAI推出的o4-mini是一款輕量級(jí)模型,專(zhuān)為追求快速響應(yīng)與成本效益的推理任務(wù)而設(shè)計(jì)。盡管體積小巧、成本低廉,o4-mini在數(shù)學(xué)、編程及視覺(jué)任務(wù)上的表現(xiàn)卻令人矚目,實(shí)現(xiàn)了性能與資源消耗的完美平衡。
o4-mini在AIME 2024及2025基準(zhǔn)測(cè)試中脫穎而出,成為表現(xiàn)最優(yōu)的模型。專(zhuān)家評(píng)估顯示,在非STEM領(lǐng)域及數(shù)據(jù)科學(xué)等任務(wù)中,o4-mini同樣超越了其前身o3-mini。得益于其高效性,o4-mini支持的使用限制遠(yuǎn)高于o3,為解決需要深度推理能力的問(wèn)題提供了強(qiáng)大且高效的高容量、高吞吐量解決方案。
Altman發(fā)文盛贊新視覺(jué)推理模型:天才水平
圖像思考與工具鏈自主決策
視覺(jué)推理新范式
o3和o4-mini首次將圖像直接融入思維鏈(Chain-of-Thought),模型不僅能“看到”圖像,還能通過(guò)裁剪、旋轉(zhuǎn)、縮放等操作進(jìn)行深度分析。即使面對(duì)模糊、倒置或低質(zhì)量圖片,模型仍能準(zhǔn)確提取信息。例如,用戶(hù)上傳手繪草圖或白板照片,模型可結(jié)合Python代碼和網(wǎng)絡(luò)搜索工具,生成可視化圖表或解決方案。
工具調(diào)用智能化
兩款模型被訓(xùn)練為“AI智能體”,可自主調(diào)用ChatGPT內(nèi)置工具(如網(wǎng)頁(yè)搜索、Python代碼執(zhí)行、圖像生成),并動(dòng)態(tài)組合使用。例如,當(dāng)用戶(hù)詢(xún)問(wèn)“加州夏季能源使用趨勢(shì)”時(shí),模型會(huì)搜索公共數(shù)據(jù)、編寫(xiě)代碼預(yù)測(cè)、生成圖表并解釋關(guān)鍵因素,整個(gè)過(guò)程耗時(shí)不到1分鐘。
OpenAI通過(guò)強(qiáng)化學(xué)習(xí)(RL)優(yōu)化工具使用策略,模型不僅能判斷“何時(shí)用工具”,還能根據(jù)任務(wù)目標(biāo)靈活調(diào)整策略,例如在數(shù)學(xué)競(jìng)賽中先暴力計(jì)算再優(yōu)化解法。
二、性?xún)r(jià)比質(zhì)的飛躍
OpenAI稱(chēng)o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節(jié)省成本。在AME2025基準(zhǔn)測(cè)試中,性?xún)r(jià)比都遠(yuǎn)遠(yuǎn)超過(guò)前代模型。
o4-mini和o3-mini在成本和性能方面的對(duì)比:
o3和o1在成本和性能方面的對(duì)比:
3
仍有三大局限性
推理鏈過(guò)程、感知錯(cuò)誤、可靠性不足
推理鏈冗長(zhǎng):模型在執(zhí)行任務(wù)時(shí),可能進(jìn)行大量冗余或不必要的工具調(diào)用與圖像處理操作,致使思維鏈過(guò)長(zhǎng)。
感知失誤:盡管工具調(diào)用能正常推進(jìn)推理流程,但模型仍可能犯下基本的感知錯(cuò)誤,視覺(jué)層面的誤解會(huì)直接導(dǎo)致最終答案出現(xiàn)偏差。
可靠性欠佳:在多次嘗試解決問(wèn)題時(shí),模型可能會(huì)采用不同的視覺(jué)推理過(guò)程,部分過(guò)程可能導(dǎo)致錯(cuò)誤結(jié)果。
未來(lái)展望
OpenAI o3和o4-mini顯著提升了模型的視覺(jué)推理能力,這些模型在視覺(jué)感知任務(wù)上的提升,使其能夠解決之前模型難以觸及的問(wèn)題,標(biāo)志著模型向多模態(tài)推理邁出的重要一步。
OpenAI在博客中提到,他們將o系列的專(zhuān)業(yè)推理能力與GPT系列的自然對(duì)話(huà)能力和工具使用能力相結(jié)合,未來(lái)可以實(shí)現(xiàn)模型能支持無(wú)縫、自然的對(duì)話(huà),同時(shí)能主動(dòng)使用工具并解決更為復(fù)雜的問(wèn)題。