在測試數(shù)學(xué)能力的 AIME24 評測集上,以及評估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現(xiàn)與DeepSeek-R1相當(dāng),遠(yuǎn)勝于 o1-mini 及相同尺寸的R1 蒸餾模型;在由Meta首席科學(xué)家楊立昆領(lǐng)銜的“最難LLMs評測榜” LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學(xué)伯克利分校等提出的評估準(zhǔn)確調(diào)用函數(shù)或工具方面的BFCL測試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。

大規(guī)模強(qiáng)化學(xué)習(xí)

我們在冷啟動的基礎(chǔ)上開展了大規(guī)模強(qiáng)化學(xué)習(xí)。在初始階段,特別針對數(shù)學(xué)和編程任務(wù)進(jìn)行了 RL 訓(xùn)練。與依賴傳統(tǒng)的獎勵模型(reward model)不同,我們通過校驗(yàn)生成答案的正確性來為數(shù)學(xué)問題提供反饋,并通過代碼執(zhí)行服務(wù)器評估生成的代碼是否成功通過測試用例來提供代碼的反饋。

我們發(fā)現(xiàn)在 RL 擴(kuò)展過程中,隨著訓(xùn)練輪次的推進(jìn),這兩個(gè)領(lǐng)域中的性能均表現(xiàn)出持續(xù)的提升。

在第一階段的 RL 過后,我們增加了另一個(gè)針對通用能力的 RL。此階段使用通用獎勵模型和一些基于規(guī)則的驗(yàn)證器進(jìn)行訓(xùn)練。我們發(fā)現(xiàn),通過少量步驟的通用 RL,可以提升其他通用能力,同時(shí)在數(shù)學(xué)和編程任務(wù)上的性能沒有顯著下降。

通過API使用QwQ-32B

以下我們展示了一段簡短的示例代碼,說明如何通過 API 使用 QwQ-32B。

未來

這是Qwen在大規(guī)模強(qiáng)化學(xué)習(xí)(RL)以增強(qiáng)推理能力方面的第一步。通過這一旅程,我們不僅見證了擴(kuò)展RL的巨大潛力,還認(rèn)識到預(yù)訓(xùn)練語言模型中尚未開發(fā)的可能性。

在致力于開發(fā)下一代Qwen的過程中,我們相信將更強(qiáng)大的基礎(chǔ)模型與依托規(guī)?;?jì)算資源的RL相結(jié)合,將會使我們更接近實(shí)現(xiàn)人工通用智能(AGI)。此外,我們正在積極探索將智能體與RL集成,以實(shí)現(xiàn)長時(shí)推理,目標(biāo)是通過推理時(shí)間擴(kuò)展來釋放更高的智能,敬請期待。

歡迎體驗(yàn)

目前,QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開源,并采用了 Apache 2.0 開源協(xié)議。

也歡迎大家通過 Qwen Chat

 (https://chat.qwen.ai/?models=Qwen2.5-Plus)直接進(jìn)行體驗(yàn)!

【來源:通義千問Qwen】

分享到

xiesc

相關(guān)推薦