其中,4050億參數的Llama 3.1模型在基本常識、可操作性、數學、工具使用和多語言翻譯方面具有行業(yè)領先的能力。同時,該模型還為開發(fā)者解鎖了諸如合成數據生成和模型蒸餾(Model Distillation)等全新功能。
發(fā)布后不久,英特爾馬上宣布,旗下的英特爾至強、酷睿和銳炫顯卡都可以支持Llama 3.1,除了硬件支持以外,包括PyTorch及英特爾PyTorch擴展包、DeepSpeed、Hugging Face Optimum庫和vLLM等,也都針對LLama 3.1做了優(yōu)化。
英特爾公布了至強、酷睿和銳炫顯卡運行Llama 3.1的性能表現。
英特爾至強內置的AMX可以提高AI場景的表現。根據基準測試,在第五代英特爾至強平臺上以1K token輸入和128 token輸出運行80億參數的Llama 3.1模型,可以達到每秒176 token的吞吐量,同時保持下一個token延遲小于50毫秒。

英特爾酷睿平臺上的NPU,以及銳炫顯卡上英特爾Xe Matrix Extensions加速等專用的AI硬件,可以讓AI PC更輕松地進行輕量級微調和應用定制。
英特爾打造的AI PC既要作為大模型開發(fā)者的平臺,同時也是部署大模型的平臺。開發(fā)環(huán)節(jié),有PyTorch以及英特爾PyTorch擴展包等配套軟件。部署環(huán)節(jié),也有OpenVINO等工具包。


低于100毫秒的延遲這一性能指標其實很重要,可以保證模型的響應足夠迅速,使用戶感覺與系統(tǒng)的交互是即時的,看起來更加連貫,沒有明顯的停頓或延遲,從而使交互體驗更加順暢。