不僅如此,英特爾還首次披露了即將發(fā)布的產(chǎn)品——英特爾至強 6性能核處理器(代號為Granite Rapids)針對Meta Llama 3的性能測試。結(jié)果顯示,與第四代至強處理器相比,英特爾至強6處理器在80億參數(shù)的Llama 3推理模型的延遲降低了2倍,并且能夠以低于100毫秒的token延遲,在單個雙路服務(wù)器上運行諸如700億參數(shù)的Llama 3這種更大參數(shù)的推理模型。
考慮到Llama 3具備更高效的編碼語言標記器(Tokenizer),測試采用了隨機選擇的prompt對Llama 3和Llama 2進行快速比較。在prompt相同的情況下,Llama 3所標記的token數(shù)量相較Llama 2減少18%。因此,即使80億參數(shù)的Llama 3模型比70億參數(shù)的Llama 2模型參數(shù)更高,在AWS m7i.metal-48xl實例上運行BF16推理時,整體prompt的推理時延幾乎相同(該評估中,Llama 3比Llama 2快1.04倍)。
開發(fā)者可在此查閱在英特爾至強平臺上運行Llama 3的說明。