尤其值得關(guān)注的是,在此次評測中,天津大學(xué)引入GPT-4對參評模型的主觀題回答進行了打分,結(jié)果顯示,在GPT-4看來文心一言生成的中文內(nèi)容質(zhì)量更高。相比人工評價,在基于GPT-4的自動評測中,文心一言的總得分一舉超過GPT-4,躍居榜首。

天津機器學(xué)習重點實驗室負責人、天津大學(xué)胡清華教授表示,“基礎(chǔ)智能模型有望重塑人工智能的發(fā)展模式,國內(nèi)外大模型如雨后春筍般大量涌現(xiàn)。全面準確評價此類模型是推動和規(guī)范其健康發(fā)展的基礎(chǔ),為使用者在選擇和應(yīng)用大模型時提供參考??梢钥吹剑俣任男囊谎栽谠u測中展現(xiàn)了國產(chǎn)大模型的強大實力,中國的大語言模型在短期內(nèi)取得巨大發(fā)展,正在逐步趕超國際類似的模型,甚至在某些指標上實現(xiàn)了局部超越。未來,期待國產(chǎn)大模型能夠取得更大突破,可以賦能社會經(jīng)濟發(fā)展,助力我國科技高質(zhì)量自立自強?!?/p>

據(jù)了解,參與本次評測的大模型包括GPT-4、ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo等國外大模型,以及百度文心一言、阿里通義千問、訊飛星火認知大模型、ChatGLM-6B、360智腦、MOSS-16B、MiniMax、baichuan-7B等國產(chǎn)大模型。評測使用一套涵蓋知識問答、語言表達、邏輯推理、常識問答、文本問答、機器翻譯等不同領(lǐng)域知識、包含多種題型的中文綜合性試題,通過多維度得分結(jié)果,清楚了解不同模型的擅長領(lǐng)域和綜合能力優(yōu)劣。

結(jié)果顯示,國產(chǎn)大模型以文心一言為代表,在知識問答、語言表達、邏輯推理、常識問答等方面表現(xiàn)出色。相比其他國產(chǎn)大模型,文心一言更具優(yōu)勢,展示了更強大的綜合能力。尤其在中文語言表達上,文心一言相比GPT-4和其他國內(nèi)大語言模型明顯更優(yōu)質(zhì)。此外,本次評測中,文心一言在計算機、醫(yī)學(xué)、法律和教育等領(lǐng)域的得分率高,為大語言模型在相關(guān)行業(yè)的落地提供了技術(shù)基礎(chǔ)。

近期,國內(nèi)外多家調(diào)研機構(gòu)、權(quán)威媒體和高校等發(fā)布大模型評測報告,從結(jié)果來看,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表現(xiàn);綜合能力在評測中超過ChatGPT,遙遙領(lǐng)先于其他大模型,穩(wěn)居國內(nèi)第一。有專家指出,大模型正在進入規(guī)??蓮?fù)制的產(chǎn)業(yè)落地階段,在關(guān)注大模型評測的同時,更要關(guān)注大模型的落地生態(tài)。百度文心在大模型生態(tài)的構(gòu)建上具備先發(fā)優(yōu)勢。

公開資料顯示,文心大模型已經(jīng)擁有中國最大的產(chǎn)業(yè)應(yīng)用規(guī)模,目前有15萬家企業(yè)申請接入文心一言測試。最新數(shù)據(jù)顯示,百度有超過750萬開發(fā)者基礎(chǔ),20萬企業(yè)生態(tài)基礎(chǔ),多層次開展大模型人才培訓(xùn)、企業(yè)賦能、開發(fā)者運營。百度還設(shè)立10億創(chuàng)投基金鼓勵大模型創(chuàng)意、繁榮大模型生態(tài),不到1個月時間吸引近1000個項目參與角逐,參賽團隊表示,百度打響了中國大模型的第一槍,百度在資金、技術(shù)、業(yè)務(wù)等方面的全面扶持,大幅降低了大模型行業(yè)的入局門檻,為大模型應(yīng)用創(chuàng)業(yè)團隊注入了強勁動力和信心。

分享到

nina

相關(guān)推薦