榜單最新冠軍是來自技術(shù)創(chuàng)新研究院TII(Technology Innovation Institute)的Falcon-40B-instruct,它基于排名第三的Falcon-40B微調(diào)得來。

前者是指令優(yōu)化的模型,類似ChatGPT,可以聊天對話和問答。后者是一個沒有微調(diào)過的基礎(chǔ)模型,可用于進一步訓(xùn)練或者微調(diào),就像GPT-3.5和GPT-4那樣。

Falcon-40B在Apache 2.0許可下提供,這是一個自由和開源的軟件許可協(xié)議,允許用戶自由地使用、修改和分發(fā)軟件,支持在商業(yè)環(huán)境中使用。

所以,F(xiàn)alcon-40B是目前最強開源可商用的大語言模型。

技術(shù)創(chuàng)新研究院TII來自阿聯(lián)酋首都阿布扎比,研究院最初七個專門的研究中心的研究內(nèi)容就有人工智能相關(guān)領(lǐng)域。

技術(shù)創(chuàng)新研究院TII

TII 跨AI研究中心執(zhí)行總監(jiān)、代理首席AI研究員兼大語言模型項目負責(zé)人Ebtesam Almazrouei博士表示,“通過發(fā)布Falcon 40B開源模型,我們?yōu)檠芯繂T、企業(yè)和組織提供了在各個行業(yè)領(lǐng)域利用Falcon 40B強大能力的機會。

作為一個有40B(400億)參數(shù)大大語言模型,它的表現(xiàn)超過了有650億參數(shù)的LLaMA。

有如此表現(xiàn)大致原因有兩方面,一個是訓(xùn)練數(shù)據(jù)質(zhì)量更高,另一個是訓(xùn)練方法在不斷優(yōu)化的效果。

Falcon-40B基于一萬億個字符(token)訓(xùn)練而來,上圖展示了Falcon-40B的訓(xùn)練數(shù)據(jù)構(gòu)成,大部分是由技術(shù)創(chuàng)新研究院TII創(chuàng)建的數(shù)據(jù)集RefinedWeb,該數(shù)據(jù)集是從網(wǎng)絡(luò)上抓取后整理而來的,任何人都可以基于ODC-By 1.0來使用和修改。

Falcon-40B在亞馬遜云科技的Amazon SageMaker上完成的訓(xùn)練,使用了384塊40GB顯存的A100顯卡,使用的是P4d實例。訓(xùn)練是從2022年12月開始的,歷經(jīng)了兩個月的時間。

Falcon-40B的訓(xùn)練過程使用了優(yōu)化的并行計算和內(nèi)存管理策略,這使得它可以在大規(guī)模的硬件設(shè)備上進行訓(xùn)練,更高效地處理大型的數(shù)據(jù)集和模型。

Falcon-40B與來自DeepMind的Chinchilla和來自谷歌的PaLM-62B的性能相當(dāng),相比之下訓(xùn)練成本要低得多。據(jù)了解,訓(xùn)練Falcon-40B的計算量是GPT-3的 75%、Chinchilla的40%,占 PaLM-62B 的 80%。

除了400億參數(shù)的Falcon 40B,同時發(fā)布的還有70億參數(shù)的Falcon 7B。前者部署大概需要90GB顯存的顯卡,后者可降低使用門檻,需要大概15GB顯存的顯卡。

雖說后者15GB顯存就可以運行,但目前大部分顯卡還是只有8GB顯存。目前較新的顯卡,只有RTX 4090/RTX 4080以及RTX 3090Ti和RTX 3090可以滿足要求,門檻還是很高。

當(dāng)然,也可以不買顯卡直接用。

從6月7日起,兩個開源Falcon大語言模型也將在Amazon SageMaker JumpStart中可用。Amazon SageMaker JumpStar提供了包括Falcon-40B在內(nèi)的多種預(yù)訓(xùn)練模型、內(nèi)置算法和預(yù)構(gòu)建的解決方案模板,可以幫助用戶快速上手機器學(xué)習(xí)。

用戶可以在Hugging Face網(wǎng)站上直接點擊部署按鈕即可部署在Amazon SageMaker上,可以選擇SageMaker Python SDK、Amazon SageMaker JumpStart以及Cloudformation三種方式中的任意一種。

用戶也可以在Amazon SageMaker?Studio中輕點鼠標就可以部署和使用Falcon模型,或者通過SageMaker?Python?SDK以編程方式使用。

Amazon SageMaker是一個托管API集合,用于開發(fā)、訓(xùn)練、調(diào)優(yōu)和托管機器學(xué)習(xí)(ML)模型,包括大語言模型。許多客戶使用SageMaker處理其大語言模型工作負載,例如Stability?AI,?AI21?Labs和LG?AI。

此外,Amazon SageMaker?Training提供了具有用戶自定義硬件配置和代碼的計算集群。計算作業(yè)按運行次數(shù)計費,按秒分配任務(wù),這意味著用戶在未使用服務(wù)時無需為GPU資源付費。

Gartner在《2023 云 AI 開發(fā)者服務(wù)魔力象限》報告,亞馬遜云科技被評為“領(lǐng)導(dǎo)者”,且在執(zhí)行能力軸上排名最高,很多企業(yè)都選擇用Amazon SageMaker來訓(xùn)練和推理機器學(xué)習(xí)模型。

現(xiàn)在,TII正在訓(xùn)練下一代Falcon大語言模型,將在Amazon SageMaker上擴展到3136個A100 GPU(392個ml.p4d實例,每個實例有8個A100)來做訓(xùn)練。

分享到

zhupb

相關(guān)推薦