智譜發(fā)布GLM-4-Air、GLM-4V-Plus模型,設立Flash全模態(tài)免費模型
MiniMax震撼開源,突破傳統(tǒng)Transformer架構

面壁智能最新的模型——MiniCPM-o 2.6

文字編輯|宋雨涵

1

智譜發(fā)布GLM-4-Air、GLM-4V-Plus模型

全新功能升級

GLM-Realtime

繼「智譜清言」視頻通話功能后,智譜深入探索語言、語音、圖像及視頻理解與生成,推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模態(tài)模型。

現(xiàn)發(fā)布全新端到端多模態(tài)模型GLM-Realtime,實現(xiàn)近乎實時視頻理解與語音交互,含清唱功能,支持2分鐘記憶及Function Call。同時,升級GLM-4-Air和GLM-4V-Plus模型,提供高性價比語言模型解決方案。特別設立Flash系列普惠模型,免費開放,助力開發(fā)者創(chuàng)新。

超高性價比

GLM-4-Air

GLM-4-Air自上線以來,憑借「高性價比」贏得了平臺開發(fā)者的廣泛青睞。今日,我們推出全面升級版——GLM-4-Air-0111。通過對于訓練數(shù)據(jù)和訓練流程的全面優(yōu)化,GLM-4-Air-0111在多個維度上實現(xiàn)了性能飛躍,接近規(guī)模更大的GLM-4-Plus模型。

與此同時,GLM-4-Air-0111的價格降至原來的50%,大幅降低企業(yè)落地大模型應用的門檻。

同時,我們針對視覺理解模型GLM-4V-Plus也進行了全面升級。新版本在多個公開榜單上均展現(xiàn)出顯著的效果提升。

更新后的GLM-4V-Plus支持變分辨率功能,能夠適應不同尺寸的圖像輸入,在小圖場景下顯著降低token消耗(例如,224 * 224的分辨率下,輸入的圖像token數(shù)僅為原來的3%),同時支持4K超清圖像和極致長寬比圖像的無損識別。

此外,新版GLM-4V-Plus還具備長達2小時的視頻理解能力,為視頻理解和分析領域提供了更加高效、精準的解決方案。

2

MiniMax震撼開源,突破傳統(tǒng)Transformer架構

比肩頂尖模型的開源模型

2025年,AI Agent或將大量加入勞動力,影響公司生產力。OpenAI CEO Sam Altman、Meta CEO Mark Zuckerberg及英偉達CEO黃仁勛均預測2025年為AI Agent之年。隨后,MiniMax開源了新模型MiniMax-Text-01和MiniMax-VL-01,采用線性注意力機制,處理上下文長達400萬token,助力Agent應用爆發(fā)。

MiniMax-Text-01 的架構

MiniMax-Text-01通過一系列創(chuàng)新,如新型線性注意力、改進版混合專家架構等,解決了大模型在處理超長上下文時的效率與效果問題。其架構中的Lightning Attention大幅降低了計算復雜度。混合專家(MoE)技術也提升了模型效率。此外,MiniMax還采用了數(shù)據(jù)格式化、分批核融合等優(yōu)化策略。

MiniMax-Text-01擁有4560億參數(shù),上下文長度可達400萬token,在學術測試集上表現(xiàn)卓越,超越多個閉源和開源模型。在長上下文理解任務上,其優(yōu)勢尤為明顯。MiniMax-VL-01作為多模態(tài)版本,同樣表現(xiàn)出色。

MiniMax認為,足夠大的上下文窗口是Agent技術發(fā)展的關鍵。他們正研究更高效架構,以支持無限上下文窗口。同時,多模態(tài)token的加入將使Agent逐步進入物理世界。MiniMax創(chuàng)始人展望下一代AI將無限接近圖靈測試,交互自然,無處不在。

3

面壁智能最新的模型——MiniCPM-o 2.6

火爆外網(wǎng),大量網(wǎng)友刷屏

這個AI是面壁智能的最新模型MiniCPM-o 2.6,因僅8B體量卻能在多模態(tài)能力上與GPT-4o比肩而在海外爆火,且能在iPad上運行。MiniCPM-o 2.6能精準識別翻書聲、咳嗽聲等,在看和說方面也有出色表現(xiàn),如“睜眼”玩兒三仙歸洞、扮演各種角色等。網(wǎng)友們稱贊其超酷,像給iPad裝了第二個大腦。

面壁智能還公布了MiniCPM-o 2.6在多模態(tài)能力評測榜單的成績,整體能力已可比肩GPT-4o,部分項目甚至超越。面壁智能稱MiniCPM-o 2.6為開源社區(qū)最強語音、端側視覺、實時流式多模態(tài)模型。實測中,MiniCPM-o 2.6視力水平高,能精準回答刪除的字、識別游戲名等,因其能做到真·看視頻,持續(xù)對實時視頻和音頻建模。

在視覺方面,MiniCPM-o 2.6對圖片的理解和推理能力也更上一層樓,能指導調整自行車座椅、幫忙解題等,基于其強大的OCR能力。在說的方面,MiniCPM-o 2.6能用四川話教煮火鍋等。

這些能力得益于其端到端全模態(tài)架構,綜合考慮不同模態(tài)間的關聯(lián)和交互,使用交叉熵損失進行端到端訓練,并適應流式輸入輸出,通過OTDM處理多模態(tài)信息片段,再傳遞給全模態(tài)流式骨干網(wǎng)絡提取特征并融合。面壁團隊還設置了可配置的聲音方案,支持聲音風格的生成、克隆和音色創(chuàng)建等。

MiniCPM-o 2.6是面壁智能更大計劃的一環(huán),面壁團隊聚焦于端側模型之路,認為AI原生應用+AI原生硬件是新時代需要的操作系統(tǒng),而端側能運行大模型的硬件即AI原生硬件,因此端側大模型很重要。面壁智能此前已發(fā)布多個高效端側模型,如MiniCPM系列,且在CES上亮相。

MiniCPM-o 2.6加上了多模態(tài)實時語音交互能力,離人人可用的端側模型更近,也便利了視障人士友好出行。面壁智能的端側模型開源,擁有更多應用場景,適合部署在智能眼鏡等設備上。國產開源力量表現(xiàn)亮眼,面壁智能、DeepSeek、阿里Qwen有“中國大模型開源三劍客”之勢。

寫在最后

智譜發(fā)布新模型并設立免費普惠模型,MiniMax開源新模型突破傳統(tǒng)架構,面壁智能的MiniCPM o 2.6以小體量展現(xiàn)強大多模態(tài)能力在海外爆火。這些成果體現(xiàn)了國產大模型在技術創(chuàng)新、性價比提升、開源共享等多方面的積極探索和卓越成就。  

這一系列的進展表明,國產大模型正以強勁的發(fā)展勢頭崛起,無論是在模型的功能優(yōu)化、性價比提升,還是在開源共享以促進全球技術交流等方面,都有著不可忽視的影響力。在未來,我們有理由期待國產大模型將繼續(xù)在全球人工智能產業(yè)格局中扮演更為重要的角色,不斷推動人工智能技術向更廣泛、更深入的方向發(fā)展,為社會各個領域帶來更多的創(chuàng)新和變革。

分享到

lixiangjing

算力豹主編

相關推薦