雖然第四代和第五代都支持AMX和AVX-512指令集,但第五代英特爾至強(qiáng)可擴(kuò)展處理器,因?yàn)橛布?guī)格的提升,包括內(nèi)存帶寬和三級緩存容量的提升,最后讓AI推理性能顯著提高了42%,使得它成為更適合AI的服務(wù)器處理器。
除了硬件的提升,英特爾人數(shù)眾多的軟件團(tuán)隊(duì)還在x86架構(gòu)上進(jìn)行持續(xù)優(yōu)化。英特爾對開源軟件的支持素來屬于行業(yè)模范,對于TensorFlow、PyTorch這類主流開源機(jī)器學(xué)習(xí)框架的支持自不必說。
英特爾市場營銷集團(tuán)副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國區(qū)運(yùn)營商銷售總經(jīng)理莊秉翰表示,英特爾在軟件生態(tài)上有很大投入,隨著第五代至強(qiáng)的發(fā)布,英特爾向社區(qū)上傳了300多個深度學(xué)習(xí)模型,支持50多個面向第五代至強(qiáng)優(yōu)化過的模型,這些都可以供開發(fā)者調(diào)用。
此外,自家推出的OpenVINO可用于優(yōu)化深度學(xué)習(xí)推理在各種英特爾硬件,包括CPU、GPU、FPGA等芯片上的性能表現(xiàn)。當(dāng)然,想要讓CPU來跑大語言模型就不得不提oneDNN和oneCCL。
oneDNN(oneAPI Deep Neural Network Library)是一個開源的跨平臺性能庫,專為深度學(xué)習(xí)應(yīng)用而設(shè)計。oneDNN簡化了開發(fā)者優(yōu)化深度學(xué)習(xí)應(yīng)用的過程,同時最大化利用英特爾硬件的計算能力,提升深度學(xué)習(xí)模型在這些平臺上的性能。
oneCCL(oneAPI Collective Communications Library)是專為分布式和并行計算設(shè)計的一個庫,它能使計算節(jié)點(diǎn)間的數(shù)據(jù)傳輸和同步變得簡單高效,是HPC和大規(guī)模深度學(xué)習(xí)場景中不可或缺的組件,它使得基于CPU的大規(guī)模分布式推理成為可能。
談到大語言模型的推理就得介紹一個叫Token Latency的參數(shù),Token Latency指的是從輸入第一個token到模型生成第一個token的延遲。它是衡量大模型響應(yīng)速度的指標(biāo),也是考驗(yàn)CPU推理性能的指標(biāo)。
從英特爾專家的介紹中了解到,100ms是客戶業(yè)務(wù)的閾值,大于100ms時業(yè)務(wù)體驗(yàn)會比較差。所以,只要至強(qiáng)處理器能把大模型的Token Latency控制在100ms以下,那就能用來推理大模型。
從英特爾公布的測試數(shù)據(jù)來看,當(dāng)使用一臺基于第四代或者第五代至強(qiáng)的服務(wù)器來推理10億參數(shù)模型時,Token Latency能控制在20ms以下。同樣是這臺服務(wù)器,如果用來推理60-70億參數(shù)模型時,延遲就提高到了60ms左右,推理130億參數(shù)就達(dá)到了100ms。
如果想要推理300億參數(shù)的模型,同時想把延時控制在100ms以下的話,就需要兩臺基于第四代或者第五代至強(qiáng)的兩路服務(wù)器。當(dāng)然,如果選擇至強(qiáng)Max的方案,則只需要一臺兩路服務(wù)器即可??磥?,在推理性能上,一臺至強(qiáng)Max大概等于兩臺至強(qiáng)可擴(kuò)展處理器的方案。
最后,英特爾至強(qiáng)在推理700億參數(shù)模型時,想要控制在100ms以下,就需兩臺基于至強(qiáng)Max的兩路服務(wù)器,或者4臺基于至強(qiáng)可擴(kuò)展處理器的兩路服務(wù)器。英特爾給出的結(jié)論顯示,英特爾至強(qiáng)在推理130億參數(shù)以下的大模型時,性能表現(xiàn)良好。
實(shí)際落地中,英特爾和百度一起,使用四臺基于第五代英特爾至強(qiáng)可擴(kuò)展處理器的雙路服務(wù)器,支持了70B參數(shù)的模型,服務(wù)器間的互連采用了oneCCL和RDMA網(wǎng)絡(luò),并將延遲可控制在了100ms以內(nèi)。實(shí)際操作證明了GPU并不是大模型推理的唯一選擇,CPU也行。
英特爾專家表示,對于業(yè)務(wù)仍處于起步階段的公司而言,可以在綜合考慮各種方案的表現(xiàn),方案的成本,考慮資源是否能夠充分利用的前提下,再做出采購選擇。此時,用戶可以發(fā)現(xiàn),使用至強(qiáng)做推理是一更很穩(wěn)妥的選擇。
在實(shí)際落地中,百度云上使用四臺基于第五代英特爾至強(qiáng)的云主機(jī)來推理Llama2 70B時,可以達(dá)到87.5ms的推理延遲。百度也表示,考慮部署和運(yùn)維等成本,一般企業(yè)導(dǎo)入基于至強(qiáng)的生成式AI服務(wù),能大幅降低初期投入成本。
從莊秉翰的介紹中了解到,英特爾有很多OEM伙伴都推出了基于第五代英特爾至強(qiáng)可擴(kuò)展處理器的一體機(jī),用來推理7B、13B,甚至34B的大模型,這些通用處理器都支持AMX、AVX-512指令集,可以用來滿足推理大模型的需求。