Nemotron模型家族可以分為三大類,可以部署在不同規(guī)格的計算平臺上:Nano版適合部署在PC和邊緣設備上,Super版適合部署在單張GPU上,最強的Ultra版本則需要部署在數據中心里,需要很強的算力和很高的計算精度。

全新的NVIDIA Nemotron Nano 2,推理成本驟降60%

新發(fā)布的NVIDIA Nemotron Nano 2不僅實現了同尺寸模型下的最高準確率,并且還加入了可配置的“思考預算”功能,支持用戶控制輸出的Token的數量,讓AI智能體在更深入的思考和更快的執(zhí)行效率之間尋找平衡點。

據了解,Nemotron Nano 2在相同時間內生成的Token數量提升了最高6倍,同時,相比同類其他開源模型,推理成本降低了60%。智能體每次工作需要耗費的Token很多,成本降低的現實意義很大。

新發(fā)布的NVIDIA Llama Nemotron Super 1.5,吞吐量提升6

新發(fā)布的NVIDIA Llama Nemotron Super 1.5其吞吐量有較大提升。它支持NVFP4格式,NVFP4是英偉達給Blackwell量身打造的格式,在保持模型準確度的前提下提升推理性能和效率,跟Hopper上采用的FP8相比,實現了6倍的吞吐量提升。

Llama Nemotron Super 1.5在同類產品中實現了更高的推理準確性,而且,成本還比較低。與某70B參數的模型相比,它的推理準確性高出很多,而與某32B模型在同一準確度的情況下,成本低了很多。

英偉達Omniverse與仿真技術副總裁Rev Lebaredian介紹稱,目前已經有許多軟件巨頭都在使用英偉達的Nemotron模型,他認為,每個行業(yè)里,每個軟件平臺都會有自己的AI智能體。

比如:安全大廠Crowdstrike利用Nemotron模型,將其安全警報分類的準確率提升了11%;存儲大廠NetApp正在其AI數據平臺上集成Nemotron,以支持AI智能體進行復雜的商業(yè)數據搜索與分析;視頻會議巨頭Zoom也計劃采用Nemotron來幫助用戶處理多步驟的復雜任務。

作為開源的模型,NVIDIA Nemotron Nano 2 和 Llama Nemotron Super 1.5 (NVFP4) 將在不久后開放下載。這次,英偉達不僅開放模型,還推出了訓練數據集——Llama Nemotron VLM 數據集 v1,開發(fā)者可以在Hugging Face上自行下載。

分享到

zhupb

相關推薦