(圖片來源/Meta Research)

繼OpenAI、微軟及谷歌的文本生成式AI(generative AI)模型,Meta也公布了能產(chǎn)生文本的最新AI模型,并準(zhǔn)備將其開源。

Meta CEO Mark Zuckerberg在本周通過Facebook公布了AI大型語言模型LLaMA(Large Language Model Meta AI)。并表示,大型語言模型已顯示產(chǎn)生文本、對話、為文章做摘要、以及其它更復(fù)雜的任務(wù)如解決數(shù)學(xué)定理或預(yù)測蛋白質(zhì)結(jié)構(gòu)的潛能。Meta將把LLaMA模型開放給AI研究社群,供研究人員進行不同領(lǐng)域研究。

與openAI的聊天機器人ChatGPT或谷歌應(yīng)對“策略”Bard 不同,LLaMA不是聊天機器人,而是類似于GPT-3.5和LaMDA的LLM(大型語言模型)匯編,這些LLM 支持對話式AI應(yīng)用。LLaMA 目前是Meta進行的一項非創(chuàng)收嘗試,并未積極整合到公司現(xiàn)有的業(yè)務(wù)組合中。

與OpenAI的GPT-3.5(多達1750億個參數(shù))、谷歌的LaMDA(多達1370億個參數(shù))和PaLM(5400億個參數(shù))以及微軟的Megatron-Turing自然語言生成模型(5300億個參數(shù))等LLM相比 ), Meta對LLaMA 模型的匯編明顯更小,但可用作訓(xùn)練更大語言模型。這些模型以大量未標(biāo)注的資料訓(xùn)練而成,很適合微調(diào)后用于多種任務(wù),減少后續(xù)大型模型測試、驗證及探索新使用情境的計算資源需求。

Meta稱,過去數(shù)十億參數(shù)的大型自然語言處理(natural language processing,NLP)模型發(fā)展出產(chǎn)生創(chuàng)意文本、解決數(shù)學(xué)定理問題、回答閱讀理解問題等能力。

但訓(xùn)練和執(zhí)行這類大型模型的成本和資源不是所有人都有的,也限制了研究的進展,并造成語言模型的偏見、毒性(toxicity)和產(chǎn)生錯誤信息。相對的,小型模型是以更多token(小段字詞)訓(xùn)練,比較容易為特定使用情境重訓(xùn)練及微調(diào)。

Meta最小的模型LLaMA 7B以一萬億token訓(xùn)練、LLaMA 65B及33B則以1.4萬億訓(xùn)練。此外他們選擇從20種使用人口最多的語言的文字字詞為訓(xùn)練輸入,以拉丁和西里爾(Cyrillic,一種斯拉夫語)字母為主。

按參數(shù)來說,Meta的LLaMA有多種規(guī)模,分成70億、130億、330億及650億參數(shù)。最大的LLaMA-65b模型相比一些世界級知名LLM,如DeepMind的Chinchilla(700 億個參數(shù))和谷歌的PaLM也極具競爭力。Meta也提供了LLaMA模型卡(model card)透明度工具,像是標(biāo)桿測試模型對模型偏差和毒性的評估值,供研究人員了解模型的限制。

最后

當(dāng)前LLM 應(yīng)用范圍已經(jīng)遠超出聊天機器人,涵蓋了從游戲到生產(chǎn)力軟件的無限范圍用例,并且在為生成式AI的需求帶來增長機會,預(yù)計其將年復(fù)合增長率將超過30%,并有可能成為一個價值50+億美元規(guī)模的市場。

分享到

崔歡歡

相關(guān)推薦