大杯Claude Opus 4,具備長(zhǎng)時(shí)間穩(wěn)定處理復(fù)雜任務(wù)的能力

這次發(fā)布的Opus 4和Sonnet 4的編碼能力都很強(qiáng),不僅大幅超越了上一代的Claude Sonnet 3.7,還超越了OpenAI o3和Gemini 2.5 pro,上演了王者歸來(lái)的戲碼。

值得劃重點(diǎn)的是,Claude Opus 4具備用較長(zhǎng)時(shí)間來(lái)處理復(fù)雜任務(wù)的能力,這需要模型在更大的上下文環(huán)境中規(guī)劃并執(zhí)行多步驟流程,在較長(zhǎng)的時(shí)間跨度內(nèi)整合多輪輸入而不混亂。

Anthropic表示,Claude Opus 4在需要專注投入,在需要數(shù)千個(gè)步驟的長(zhǎng)時(shí)間復(fù)雜任務(wù)中表現(xiàn)出色,它能夠連續(xù)工作數(shù)小時(shí)。

比如,在編碼場(chǎng)景,Claude Opus 4能獨(dú)立完成從規(guī)劃到執(zhí)行的復(fù)雜編碼項(xiàng)目和agent工作流,開(kāi)發(fā)者能用它來(lái)重構(gòu)或轉(zhuǎn)換大型項(xiàng)目。

Claude獨(dú)立自行工作的能力在快速提升,有體驗(yàn)過(guò)的網(wǎng)友表示,已經(jīng)讓Claude自主編碼了近七個(gè)小時(shí)。

此外,Claude Opus 4長(zhǎng)周期處理任務(wù)的能力還能用于整合研究成果。比如,金融行業(yè)客戶可利用Claude Opus 4進(jìn)行agent搜索與研究,例如連接海量市場(chǎng)報(bào)告以獲取行業(yè)洞察。

Claude Opus 4 擅長(zhǎng)編碼和解決復(fù)雜問(wèn)題,為前沿代理產(chǎn)品提供動(dòng)力。著名AI編程工具Cursor稱其為編碼領(lǐng)域的最新技術(shù),并在復(fù)雜代碼庫(kù)理解方面實(shí)現(xiàn)了飛躍。

Cognition指出 ,Opus 4擅長(zhǎng)解決其他模型無(wú)法解決的復(fù)雜挑戰(zhàn),成功處理了以前的模型遺漏的關(guān)鍵操作。

Block首席數(shù)據(jù)和機(jī)器學(xué)習(xí)工程師Bradley Axen表示:Claude Opus 4第一個(gè)在其代理中在編輯和調(diào)試過(guò)程中提高代碼質(zhì)量,同時(shí)保持完整性能和可靠性的模型。

Claude Sonnet 4的編碼能力也很強(qiáng),適合大規(guī)模日常使用

Claude Opus4 和Sonnet 4在SWE-bench Verified(真實(shí)軟件工程任務(wù)性能基準(zhǔn)測(cè)試)上也大幅領(lǐng)先此前的Claude Sonnet 3.7、OpenAI最新的Codex-1、o3以及谷歌的Gemini 2.5 Pro。

與Opus 4不同,Sonnet 4平衡了性能與成本,特別適合高吞吐量的業(yè)務(wù)場(chǎng)景。在多Agents系統(tǒng)中,Sonnet 4非常適合作為專門處理特定任務(wù)的子Agent。

作為Claude Sonnet 3.7的升級(jí)版本,它不僅提供很強(qiáng)的編碼和推理能力,同時(shí),還能準(zhǔn)確地響應(yīng)用戶的指令。

對(duì)于開(kāi)發(fā)者來(lái)說(shuō),Claude Sonnet 4能夠高效完成代碼審查、漏洞修復(fù)、新功能開(kāi)發(fā)等工作,還能使用Sonnet 4來(lái)管理CI/CD流程、執(zhí)行漏洞分類等工作。

此外,Anthropic認(rèn)為,旅游與酒店行業(yè)客戶可使用Claude Sonnet 4近乎實(shí)時(shí)處理客戶請(qǐng)求并提供個(gè)性化響應(yīng)。

Claude Opus 4 與Claude Sonnet 4的相同和不同

總結(jié)一下:Opus 4注重細(xì)節(jié),性能優(yōu)先,具備處理復(fù)雜任務(wù)的能力,擅長(zhǎng)復(fù)雜工作流程和深度分析,更側(cè)重深度研究和長(zhǎng)期任務(wù)。

而Sonnet 4注重效率,平衡了性能與成本,適合大規(guī)模部署。適用于大多數(shù)場(chǎng)景,適合高吞吐量的日常業(yè)務(wù)場(chǎng)景、實(shí)時(shí)應(yīng)用和多任務(wù)處理。

兩款新模型均能在擴(kuò)展思考過(guò)程中使用工具(如網(wǎng)絡(luò)搜索),交替進(jìn)行推理與工具調(diào)用,持續(xù)優(yōu)化答案質(zhì)量。

此外,開(kāi)發(fā)者提供本地文件訪問(wèn)權(quán)限后,模型能顯著提升記憶力,提取和保存關(guān)鍵信息,以長(zhǎng)期保持連貫性并積累隱性知識(shí)。

兩款模型均支持200K token上下文窗口,可高質(zhì)量處理或生成長(zhǎng)篇內(nèi)容,較長(zhǎng)的回復(fù)對(duì)于生成豐富的代碼和長(zhǎng)篇內(nèi)容會(huì)有幫助。

Claude Opus 4和Sonnet 4都是混合模型,提供兩種工作模式,一種可以快速響應(yīng),另外一種提供深度思考推理能力,兩種模式可自由切換。

由于這些模型可以在快速直接回答與分步深度思考模式間切換,從而在關(guān)鍵行業(yè)基準(zhǔn)測(cè)試中大幅提升多步驟工作流程的表現(xiàn)。

Anthropic增長(zhǎng)與營(yíng)收負(fù)責(zé)人Kate Jensen表示:“Claude Opus 4和Claude Sonnet 4將AI從工具變?yōu)檎嬲膮f(xié)作伙伴。我們的客戶將體驗(yàn)到項(xiàng)目周期的大幅縮短——將原本需要數(shù)周完成的項(xiàng)目壓縮至數(shù)小時(shí)。”

如何從現(xiàn)在開(kāi)始立刻用上Claude 4?

現(xiàn)在普通個(gè)人用戶可以通過(guò)網(wǎng)頁(yè)版或者手機(jī)客戶端使用,包括免費(fèi)用戶也可以用Claude Sonnet 4,開(kāi)發(fā)者可以使用Anthropic API和Amazon Bedrock提供的API開(kāi)發(fā)應(yīng)用。

不過(guò),隨著新模型的推出,免費(fèi)用戶現(xiàn)在只能用Claude Sonnet 4了,新的Claude Opus 4和此前的舊版本模型都需要Pro版才能用上,想體驗(yàn)Claude Opus 4的用戶可以試試Amazon Bedrock。

下載上圖中的Amazon Bedrock Client客戶端,在亞馬遜云科技的后臺(tái)申請(qǐng)?jiān)L問(wèn)Claude Opus 4和Claude Sonnet 4之后,再配置一下Access Key和Secret Key,就能在模型列表里選擇你需要的模型了。

Claude Opus 4和Claude Sonnet 4在Amazon Bedrock的推出,進(jìn)一步豐富了客戶使用最先進(jìn)模型的選擇,幫助客戶打造創(chuàng)新應(yīng)用,同時(shí),它具備的企業(yè)級(jí)安全防護(hù)和負(fù)責(zé)任的AI管控體系,也更適合企業(yè)用戶提供負(fù)責(zé)任的AI服務(wù)。

此次模型只升級(jí)不加價(jià)。定價(jià)與之前一樣,Opus 4 為每百萬(wàn)Token輸入需要15美元,輸出需要75美元,Sonnet 4每百萬(wàn)Token輸入需要3美元,輸出需要15美元。亞馬遜云科技Amazon Bedrock的價(jià)格也一樣。

分享到

zhupb

相關(guān)推薦