首次參與打榜,Grok取得第一名,MiroMind為開源模型的第一。馬斯克為此興奮發(fā)文,稱之為最好的benchmark

FutureX與Prophet Arena:AI智能體未來預(yù)測基準(zhǔn)的誕生

不久前,字節(jié)跳動 SEED 團(tuán)隊聯(lián)合斯坦福大學(xué)、復(fù)旦大學(xué)、普林斯頓大學(xué)共同推出Future X,是全球首個動態(tài)實時 LLM 智能體未來預(yù)測基準(zhǔn)。它從全球200多個高質(zhì)量網(wǎng)站精選只有下周才會有明確結(jié)果的問題,讓AI直面正的未來事件:股票價格的漲跌、體育比賽的勝負(fù)、政治選舉的結(jié)果、科技公司的戰(zhàn)略走向等。

這種評估方式的核心優(yōu)勢非常顯著。AI 必須像人類分析師一樣,基于當(dāng)前可獲得的信息,運(yùn)用邏輯推理、趨勢分析和概率計算來做出預(yù)測。這一機(jī)制極大地推動了 AI 智能體在真實世界復(fù)雜場景中的實用能力提升,也成為衡量智能體系統(tǒng)核心智能水平的重要標(biāo)桿。

Prophet Arena則是另一個AI預(yù)測能力評估平臺,通過實時收集和分析真實世界事件,考察AI模型在不確定性推理、信息整合和概率預(yù)測等方面的表現(xiàn)。

MiroMind如何成功預(yù)測未來

MiroMind 在 FutureX 榜單上表現(xiàn)驚艷。8 月第 3 周,首次參與即獲得第六名的成績。而在 9 月的提交中,更實現(xiàn)了雙重突破:搭載 GPT-5 的 MiroFlow 智能體框架在第 1 周和第 2 周連續(xù)奪得榜首,同時搭載自研模型 MiroThinker 的 MiroFlow 均位列前五,力壓眾多國際頂尖機(jī)構(gòu)和閉源商業(yè)模型。

1758520209545027.jpg

在測試中,MiroMind 成功預(yù)測了 2025 年 9 月 9 日ATP 男子單打排名第 4-6 位的選手,其難點(diǎn)在于網(wǎng)球排名系統(tǒng)極為復(fù)雜,涉及積分計算、比賽結(jié)果、時間窗口等多個變量。

MiroMind 的模型在預(yù)測中制定了五步策略:

1. 制定詳細(xì)預(yù)測計劃:模型首先展現(xiàn)了戰(zhàn)略規(guī)劃能力,制定了系統(tǒng)性的預(yù)測方案。

2. 獲取基礎(chǔ)數(shù)據(jù):通過網(wǎng)絡(luò)檢索獲取 9 月 1 日的男子網(wǎng)球 TOP 10 排名數(shù)據(jù),建立預(yù)測基準(zhǔn)線。

3. 理解積分規(guī)則:深入研究比賽排名與積分的對應(yīng)關(guān)系,特別對比了 2024 年與 2025 年的 dropping 規(guī)則,確保計算一致性。

4. 動態(tài)信息更新:搜索 9 月 1 日之后的比賽成績,并分類處理:對已有結(jié)果的比賽,直接更新對應(yīng)選手排名;對尚未結(jié)束的比賽,識別其可能影響。

5. 概率分析與綜合判斷:多情景分析,針對尚未出結(jié)果的比賽,模型分析了6種可能情況;作為外部驗證基準(zhǔn);最終基于 outcome 和 probability 加權(quán)計算,得出最可能排名結(jié)果。

MiroMind 還成功預(yù)測了 2025 年 9 月 11 日 數(shù)字加密貨幣 Solana 將突破的一系列關(guān)鍵價格檔位,體現(xiàn)了模型在處理價格波動類問題上的系統(tǒng)建模能力與風(fēng)險控制水平。這輪預(yù)測中,MiroMind 則是制定了六步策略:

1. 構(gòu)建市場基準(zhǔn)線:聚合 CoinGecko、Coinbase、Binance、Kraken 等多平臺實時數(shù)據(jù),明確 Solana 當(dāng)前價格區(qū)間及近期價格走勢,建立精準(zhǔn)預(yù)測起點(diǎn);

2. 量化短期波動空間:基于歷史數(shù)據(jù)計算年化波動率、平均日內(nèi)振幅等關(guān)鍵指標(biāo),評估 Solana 在一天內(nèi)可能達(dá)到的價格區(qū)間,判斷各檔位的突破概率;

3. 梳理外部影響因素:系統(tǒng)檢索 9 月 10 日的宏觀經(jīng)濟(jì)事件(如美國 PPI 發(fā)布)、Solana 鏈上動態(tài)和潛在生態(tài)活動,評估是否存在可能引發(fā)劇烈波動的催化因素;

4. 分析市場情緒信號:提取 OKX、Kraken 等平臺的永續(xù)合約資金費(fèi)率與基差數(shù)據(jù),判斷市場是否存在明顯的多空傾斜,作為重要情緒指標(biāo)參考;

5. 挑選穩(wěn)健價格檔位:結(jié)合價格分布、風(fēng)險容差與市場結(jié)構(gòu),挑選那些在大多數(shù)行情路徑下都有可能成立的價格檔位,避開臨界邊緣值,確保預(yù)測結(jié)果穩(wěn)健可靠;

6. 交叉驗證與最終判斷:對比統(tǒng)計結(jié)果、衍生品信號與第三方市場預(yù)期,最終確定最優(yōu)預(yù)測選項,兼顧穩(wěn)健性與覆蓋率。

MiroMind 的登頂并非偶然,而是基于AI預(yù)測未來的幾項核心能力:

· 信息洞察力:能快速抓取、理解和整合海量數(shù)據(jù)——從股市行情到新聞動態(tài),再到社交輿情。沒有全面信息,預(yù)測就是空想。

· 邏輯推理與趨勢感知:能發(fā)現(xiàn)模式、識別因果、判斷趨勢。未來不是憑直覺,而是建立在嚴(yán)密邏輯和數(shù)據(jù)分析之上。

· 概率與不確定性管理:能量化可能性、權(quán)衡風(fēng)險,在不確定環(huán)境下做出最優(yōu)判斷。未來充滿變數(shù),聰明的預(yù)測是概率化的決策。

· 跨領(lǐng)域整合能力:能把金融、政治、科技、社會等多領(lǐng)域信息融會貫通。未來事件往往是多因素交織,單一視角難以洞察全局。

建設(shè)最好預(yù)測大模型和創(chuàng)新者平臺

MiroFlow 框架在 GAIA-Validation 上也取得了 82.4% 的優(yōu)異成績,并在 HLE、BrowseComp 以及 xBench-DeepSearch 等基準(zhǔn)測試中領(lǐng)先眾多國際對手。更值得關(guān)注的是,MiroFlow 提供了完全開源、可復(fù)現(xiàn)的框架和配置,致力于建設(shè)一個創(chuàng)新者平臺。這個平臺為研究者和開發(fā)者提供從基礎(chǔ)框架、模型到工具鏈的完整支持,使大家能夠自由實驗、快速迭代,并在多 Agent 協(xié)作、多模態(tài)理解等前沿領(lǐng)域進(jìn)行探索。

1758520126919740.png

MiroFlow 框架之外,MiroMind 團(tuán)隊推出的自研旗艦基礎(chǔ)智能體模型(Agent Foundation Model)——MiroThinker,不僅具備強(qiáng)大的推理、決策和多模態(tài)理解能力,還能在多 Agent 協(xié)作中發(fā)揮核心作用,在各類榜單中已成為開源模型的引領(lǐng)者,并不斷縮小與閉源商業(yè)模型的差距。MiroThinker 很快將以完全開源的形式向全球開發(fā)者和研究者開放,提供可復(fù)現(xiàn)的模型和實驗環(huán)境。

陳天橋:持續(xù)投入,誠邀全球AI人才

從盛大,到天橋腦科學(xué)研究院,再到All in AI,陳天橋四分之一個世紀(jì)以來持續(xù)探索人類未來科技的邊界:

· 虛擬世界的創(chuàng)造者,1999年創(chuàng)辦盛大,開創(chuàng)了中國網(wǎng)絡(luò)游戲與網(wǎng)絡(luò)文學(xué)行業(yè)。

· 人類大腦的探索者,2016年創(chuàng)辦全球最大的私人腦科學(xué)機(jī)構(gòu)天橋腦科學(xué)研究院,在腦機(jī)接口等基礎(chǔ)、前沿研究領(lǐng)域碩果累累。

· 未來世界的塑造者,開展AI+長期記憶、AI預(yù)測未來等全新前沿探索。目前MiroMind 正在探索將長期記憶模塊深度嵌入模型,在復(fù)雜、多變的環(huán)境中做出更精準(zhǔn)可靠的預(yù)測,實現(xiàn)真正的時間維度智能。

分享到

崔歡歡

相關(guān)推薦