不記得當(dāng)時(shí)什么想法,時(shí)至今日,我依然保留著這個(gè)動(dòng)態(tài)logo

那時(shí)的意氣風(fēng)發(fā),如今成了AI時(shí)代再次出發(fā)的序章。

目前看,這是一個(gè)網(wǎng)頁(yè),不知道以后是在美團(tuán)APP開(kāi)模塊,還是新開(kāi)一個(gè)龍貓應(yīng)用。目前無(wú)法生成圖片和視頻。問(wèn)它有什么長(zhǎng)處?

然后說(shuō)自己本地生活服務(wù)很厲害,我的理解就是旅游出行規(guī)劃6,然后問(wèn)了蘇州旅游規(guī)劃,還推薦哪家東西好吃,對(duì)比一下確實(shí)比其他大模型周到,甚至連店鋪都照顧到了,而且因?yàn)槲易鲞^(guò)攻略,這份推薦基本可信。

又隨機(jī)問(wèn)了最近的熱播劇獻(xiàn)魚,想讓它用古龍小說(shuō)風(fēng)格介紹一下劇情。聯(lián)網(wǎng)狀態(tài)也不行,就是它的信息還沒(méi)更新到最近,起碼半個(gè)月時(shí)間。

下面是一些美團(tuán)公布的測(cè)試成果,有興趣可自行查看:

根據(jù)多項(xiàng)基準(zhǔn)測(cè)試綜合評(píng)估,作為一款非思考型基礎(chǔ)模型,LongCat-Flash-Chat 在僅激活少量參數(shù)的前提下,性能比肩當(dāng)下領(lǐng)先的主流模型,尤其在智能體任務(wù)中具備突出優(yōu)勢(shì)。

因?yàn)槊嫦蛲评硇实脑O(shè)計(jì)和創(chuàng)新,LongCat-Flash-Chat 具有明顯更快的推理速度,更適合于耗時(shí)較長(zhǎng)的復(fù)雜智能體應(yīng)用。

目前,美團(tuán)在?Github、Hugging Face 平臺(tái)同步開(kāi)源。

/?技術(shù)亮點(diǎn)?/

LongCat-Flash 模型在架構(gòu)層面引入“零計(jì)算專家(Zero-Computation Experts)”機(jī)制,總參數(shù)量 560 B,每個(gè)token 依據(jù)上下文需求僅激活 18.6B~31.3 B 參數(shù),實(shí)現(xiàn)算力按需分配和高效利用。為控制總算力消耗,訓(xùn)練過(guò)程采用 PID 控制器實(shí)時(shí)微調(diào)專家偏置,將單 token 平均激活量穩(wěn)定在約 27 B。

圖1:LongCat-Flash 架構(gòu)圖

通過(guò)算法和工程層面的聯(lián)合設(shè)計(jì),LongCat-Flash 在理論上的成本和速度都大幅領(lǐng)先行業(yè)同等規(guī)模、甚至規(guī)模更小的模型;通過(guò)系統(tǒng)優(yōu)化,LongCat-Flash 在 H800 上達(dá)成了 100 tokens/s 的生成速度,在保持極致生成速度的同時(shí),輸出成本低至 5元/百萬(wàn) token

圖2:LongCat-Flash 的基準(zhǔn)測(cè)試性能

分享到

崔歡歡

相關(guān)推薦