推理 AI 模型 Grok3 mini 也不容小覷。它和 Grok 3 在多方面性能上都超過或媲美 Gemini、DeepSeek 和 ChatGPT 等對手,在 MMLU 這一用于評估語言模型語言理解能力的基準測試中,展現(xiàn)出了強大的實力。
而名為 Deepsearch 的 Grok 3 智能搜索引擎模型更是一大亮點。Deepsearch 被 xAI 工程師定義為 “第一代廣泛代理工具”,它不僅能幫助工程師、科研人員編寫代碼,還能為普通用戶解答日常問題。
據悉,Grok 3 在訓練過程中調用了 10 萬個 Nvidia H100 芯片。如此大規(guī)模的 GPU 集群為 Grok 3 提供了強大的計算能力,使其能夠處理極其復雜的任務,相比前一代 Grok 2 使用的 15,000 個 GPU 實現(xiàn)了數(shù)倍的提升。
性能測試:在 AIME’24 數(shù)學能力測試中,Grok-3 取得了 52 分,明顯高于 DeepSeek-V3 的 39 分。在 GPQA 科學知識評估中,Grok-3 以 75 分領先 DeepSeek-V3 的 65 分。此外,在 LCB Oct – Feb 編程能力測試中,Grok-3 也以 57 分的成績超越了 DeepSeek-V3 的 36 分。
成本與應用場景:Grok-3 屬于重資產投入模式,而 DeepSeek R1 開源版本僅用了行業(yè) 1/50 的訓練成本就實現(xiàn)了頂級性能,API 調用價格更是低至 0.001 元 / 千 Tokens。DeepSeek 在中文語義理解的準確性上有優(yōu)勢,并且在深圳福田區(qū)政務系統(tǒng)應用中,將辦事流程壓縮 60%,其在 “本土化場景” 方面具有強大的護城河。
功能特性:Grok 3 更像是一個全能選手,在對話和推理方面表現(xiàn)出色,能作為日常的對話伙伴,以幽默、輕松的方式與人類交流。而 DeepSeek 更像是專攻某一領域的高手,在處理復雜的分析任務或特定行業(yè)問題上特別厲害。
性能表現(xiàn):據 xAI 稱,Grok 3 在復雜推理任務中的表現(xiàn)優(yōu)于 OpenAI 的 GPT-4o 等模型,但有 xAI 員工稱 Grok 3 的編程能力優(yōu)于 DeepSeek R1,但不及 OpenAI。
響應速度:Grok 3 在響應速度上表現(xiàn)出色,能夠在微秒級別內給出回答,在處理復雜查詢時幾乎無延遲,與 OpenAI 的 GPT-4 相比,Grok 3 在速度上具有明顯優(yōu)勢。
多語言能力:Grok 3 在處理多種語言方面表現(xiàn)出色,尤其是對亞洲語言的支持,能夠理解地方俚語,并通過智能數(shù)據訓練方法支持罕見語言。相比之下,OpenAI 的模型在多語言支持上仍有提升空間。
開源策略:與 OpenAI 的閉源模型不同,xAI 的 Grok 3 預計將繼續(xù)沿用開源策略,這將使全球開發(fā)者能夠自由訪問和使用該模型,促進技術的快速傳播和創(chuàng)新。
總之,Grok 3 的發(fā)布為 AI 領域帶來了新的活力和競爭,與 DeepSeek、OpenAI 的產品各有千秋,未來 AI 領域的競爭和發(fā)展態(tài)勢值得持續(xù)關注。