這還沒(méi)完,DeepSeek R1模型還開(kāi)源了權(quán)重參數(shù),任何人都可以免費(fèi)下載,更令人激動(dòng)不已的是,它是以MIT的方式開(kāi)源的,這意味著任何人都可以免費(fèi)將其用于商業(yè)用途,直接用它來(lái)搭建商業(yè)服務(wù)。

在DeepSeek R1造成轟動(dòng)之余,包括亞馬遜云科技等在內(nèi)的幾家大型科技公司很快就宣布上架DeepSeek R1。所謂上架,指的是將模型放到公有云服務(wù)中,用云上的資源運(yùn)行這款大模型。

目前,滿(mǎn)血版的DeepSeek R1有6710億參數(shù),大部分部署的DeepSeek R1都是蒸餾版。所謂蒸餾版是指將DeepSeek R1作為教師模型,讓較小‘學(xué)生模型學(xué)習(xí)其輸出,從而在縮小模型規(guī)模的同時(shí),保留大模型的核心能力。

深度求索公司開(kāi)源了6個(gè)蒸餾版模型。之所以模型的命名帶有Llama和Qwen字樣,是因?yàn)檎麴s的時(shí)候是把Llama和Qwen的小模型用作了學(xué)生模型,把DeepSeek R1用作老師模型。

即便是蒸餾后的模型依然很強(qiáng),比如,DeepSeek-R1-Distill-Qwen-32B在多個(gè)基準(zhǔn)測(cè)試中甚至超過(guò)了OpenAI-o1-mini??吹竭@么強(qiáng),又免費(fèi)可商用的模型,是不是想立即體驗(yàn)一下這款超強(qiáng)的模型呢?

部署DeepSeek R1的技術(shù)選項(xiàng)

對(duì)于普通個(gè)人用戶(hù)來(lái)說(shuō),首選的就是DeepSeek官方的在線Web服務(wù)或者手機(jī)App。然而,截止到2月6日,由于遭受著DDoS攻擊以及大量新用戶(hù)的涌入,深度求索的在線服務(wù)目前不是很穩(wěn)定。

企業(yè)用戶(hù)在本地化部署模型時(shí),不僅要投入高額硬件采購(gòu)成本及專(zhuān)業(yè)技術(shù)團(tuán)隊(duì)建設(shè)費(fèi)用,而且,在業(yè)務(wù)需求尚未明確、模型技術(shù)持續(xù)演進(jìn)的市場(chǎng)環(huán)境下,頻繁的硬件升級(jí)和技術(shù)重構(gòu)將導(dǎo)致沉沒(méi)成本風(fēng)險(xiǎn)。

相較之下,公有云服務(wù)通過(guò)按需付費(fèi)的彈性模式,既規(guī)避了前期重資產(chǎn)投入,又能即時(shí)獲取最新模型能力,在成本效益與技術(shù)前瞻性之間實(shí)現(xiàn)了最優(yōu)平衡。在亞馬遜云科技平臺(tái)上,目前可以用四種方式部署DeepSeek-R1及其蒸餾模型。

第一種,在Amazon Bedrock Marketplace部署DeepSeek-R1模型,這是上手最快的方式,目前6個(gè)蒸餾模型也全都可選。

第二種,通過(guò)Amazon SageMaker JumpStart部署DeepSeek-R1的6個(gè)蒸餾模型。JumpStart給了開(kāi)發(fā)著更多權(quán)限和操作空間,這種方法適合機(jī)器學(xué)習(xí)專(zhuān)家。

第三種,利用Amazon Bedrock的自定義模型導(dǎo)入功能部署DeepSeek-R1-Distill模型,上圖展示的是導(dǎo)入蒸餾的8B Llama模型,這種方式提供了多樣化的模型選擇。

第四種,則是租賃Amazon EC2實(shí)例來(lái)部署DeepSeek R1模型,理論上可以部署任意規(guī)模的模型,這種方式有超高的自由度,但技術(shù)難度也最大。

亞馬遜云科技打通從部署DeepSeek模型到構(gòu)建應(yīng)用的全流程

除了可以部署大語(yǔ)言模型,亞馬遜云科技還可以作為大語(yǔ)言模型的誕生地,作為生成式AI大語(yǔ)言模型運(yùn)行的最佳場(chǎng)所。隨著DeepSeek上架到亞馬遜云科技,這便打通從部署DeepSeek模型到構(gòu)建應(yīng)用的全流程。

具體而言,可以分為三個(gè)方面:

第一,亞馬遜云服務(wù)為模型訓(xùn)練提供便利。

亞馬遜云科技不僅用英偉達(dá)的高性能顯卡打造了P5、P4d等用于訓(xùn)練的P系列實(shí)例,還推出了基于自研Trainium芯片的Trn系列實(shí)例,它能提供更高的性?xún)r(jià)比。EC2實(shí)例搭配UltraCluster網(wǎng)絡(luò)架構(gòu),可以構(gòu)建大規(guī)模集群來(lái)高效地訓(xùn)練大語(yǔ)言模型。

不久前,亞馬遜云科技推出了新一代Amazon SageMaker,集成了數(shù)據(jù)分析、大數(shù)據(jù)處理等功能。其中,Amazon SageMaker AI部分可以幫助用戶(hù)完成模型的開(kāi)發(fā)、訓(xùn)練和部署的全流程。讓大語(yǔ)言模型在云上誕生。

第二,亞馬遜云服務(wù)提供了多樣的模型選擇。

橫空出世的DeepSeek V3和DeepSeek R1模型帶來(lái)的影響還在持續(xù)發(fā)酵,超低的成本和超高的智能水平讓更多人意識(shí)到,模型創(chuàng)新還遠(yuǎn)沒(méi)有結(jié)束。作為技術(shù)的使用者,需要掌握選擇模型的權(quán)利。

亞馬遜云科技提供了多種模型供用戶(hù)選擇,不僅可以提供來(lái)自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI、Luma AI、poolside、Luma AI等領(lǐng)先廠商的模型,自己也開(kāi)發(fā)了Amazon Nova系列大模型。

企業(yè)在基于大模型構(gòu)建應(yīng)用時(shí),需要綜合考慮延遲、成本、微調(diào)能力、知識(shí)庫(kù)協(xié)調(diào)能力、多模態(tài)支持等多方面能力等。比如,當(dāng)需要快速響應(yīng)場(chǎng)時(shí),就不要開(kāi)啟DeepSeek R1的深層思考模式。當(dāng)需要文生圖的能力時(shí),DeepSeek-V3這種文生文模型也并不適用。

第三,亞馬遜云服務(wù)提供了各種構(gòu)建模型的功能服務(wù)。

選好模型之后,還有很多工程化難題也亟待解決。Amazon Bedrock提供多種工具服務(wù),可以讓包括DeepSeek-R1在內(nèi)的領(lǐng)先模型都能輕松獲取這些實(shí)用功能,并由此進(jìn)入構(gòu)建應(yīng)用的快車(chē)道。

Amazon Bedrock可以?xún)?yōu)化模型推理的效果,降低延遲和成本。它提供的延遲優(yōu)化推理、模型蒸餾、提示詞緩存等都可以提高推理效率。模型蒸餾可以將速度最快可提高500%,成本降低75%,DeepSeek-R1的六個(gè)蒸餾模型就是典型的蒸餾后的模型。

Amazon Bedrock幫企業(yè)利用自己的數(shù)據(jù)。模型微調(diào)功能,RAG知識(shí)庫(kù),以及新的GraphRAG知識(shí)圖譜功能,都能幫助企業(yè)利用自己的數(shù)據(jù),把數(shù)據(jù)給到模型,讓模型更懂企業(yè)的業(yè)務(wù),從而提高模型的表現(xiàn)。

Amazon Bedrock幫用戶(hù)解決安全問(wèn)題。Amazon Bedrock不斷豐富其Guardrails功能,以簡(jiǎn)化企業(yè)實(shí)施負(fù)責(zé)任AI的投入,例入為其加入自動(dòng)推理檢查功能,從而能夠輕松識(shí)別事實(shí)性錯(cuò)誤,以提升生成回答的準(zhǔn)確性。

Amazon Bedrock幫助其企業(yè)快速落地多智能體。Amazon Bedrock提供了智能體功能和多智能體協(xié)作功能,智能體可以執(zhí)行相對(duì)復(fù)雜的工作,多智能體協(xié)作功能可以通過(guò)編排多個(gè)并行工作的智能體來(lái)加速任務(wù)。

亞馬遜CEO Andy Jassy分享了亞馬遜部署AI時(shí)的三個(gè)洞察。首先,隨著生成式AI應(yīng)用規(guī)模的擴(kuò)大,計(jì)算成本變得至關(guān)重要,人們渴望獲得更高的性?xún)r(jià)比;其次,構(gòu)建一個(gè)真正優(yōu)秀的生成式AI應(yīng)用實(shí)際上非常困難;第三,開(kāi)發(fā)者想要自由選擇他們想要使用的模型,因?yàn)橛肋h(yuǎn)不會(huì)有單一的工具能夠統(tǒng)治世界。

分享到

zhupb

相關(guān)推薦