第二步,模型下載和轉(zhuǎn)換

在部署模型之前,我們首先需要將原始的PyTorch模型轉(zhuǎn)換為OpenVINOTM的IR靜態(tài)圖格式,并對(duì)其進(jìn)行壓縮,以實(shí)現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過(guò)Optimum提供的命令行工具optimum-cli,我們可以一鍵完成模型的格式轉(zhuǎn)換和權(quán)重量化任務(wù)。

1745983264850.jpg

optimum-cli使用方法可以參考:

https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html

此外我們建議使用以下參數(shù)對(duì)運(yùn)行在NPU上的模型進(jìn)行量化,以達(dá)到性能和精度的平衡。

1745983311958.jpg

第三步,模型部署

OpenVINOTM目前提供兩種針對(duì)大語(yǔ)言模型的部署方案,如果您習(xí)慣于Transformers庫(kù)的接口來(lái)部署模型,并想體驗(yàn)相對(duì)更豐富的功能,推薦使用基于Python接口的Optimum-intel工具來(lái)進(jìn)行任務(wù)搭建。如果您想嘗試更極致的性能或是輕量化的部署方式,GenAI API則是不二的選擇,它同時(shí)支持Python和C++兩種編程語(yǔ)言,安裝容量不到200MB。

· Optimum-intel部署示例

9a8fdf0e9c39b11d386573af6859e78a.png

· GenAI API部署示例

1745984056116.jpg

這里可以修改device name的方式將模型輕松部署到NPU上。

1745984119078.jpg

· 此外Ollama package on Modelscope(https://www.modelscope.cn/models/Intel/ollama/summary) is ready to download now

1. 性能數(shù)據(jù)通過(guò)在 SKU1平臺(tái)上使用OpenVINO 框架 2025.1.0 版本進(jìn)行測(cè)試。計(jì)算任務(wù)由集成顯卡(iGPU)完成。這些測(cè)試評(píng)估了在 INT4混合精度設(shè)置下 ,處理1K input 時(shí)的內(nèi)存占用、首個(gè)token延遲和平均吞吐量。每次測(cè)試在預(yù)熱階段后執(zhí)行 3 次,選取中間值作為報(bào)告數(shù)據(jù)。(Sku1: Brand: Intel, OEM: n/a, Model: CSRD(Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

2. 性能數(shù)據(jù)通過(guò)在SKU2平臺(tái)上使用OpenVINO框架2025.1.0版本進(jìn)行測(cè)試,計(jì)算任務(wù)由集成顯卡(iGPU)或神經(jīng)處理單元(NPU)完成。測(cè)試評(píng)估了INT4混合精度、INT8通道權(quán)重精度及FP16精度設(shè)置下,處理1K input 時(shí)的內(nèi)存占用、首個(gè) token 延遲和平均吞吐量。每次測(cè)試在預(yù)熱階段后執(zhí)行 3 次,選取中間值作為報(bào)告數(shù)據(jù)。(Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

3. 性能數(shù)據(jù)通過(guò)在 SKU3 上使用 OpenVINO 框架 2025.1.0 版本進(jìn)行測(cè)試,計(jì)算任務(wù)在獨(dú)立顯卡上完成。測(cè)試評(píng)估了在 INT4混合精度、INT8量化和 FP16 精度設(shè)置下,處理1K input時(shí)的內(nèi)存占用、首個(gè)token延遲和平均吞吐量。每次測(cè)試在預(yù)熱階段后執(zhí)行三次,選取中間值作為報(bào)告數(shù)據(jù)。(Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU(vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n/a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)

4. 性能因使用情況、配置和其他因素而異。 欲了解更多信息,請(qǐng)?jiān)L問(wèn)intel.com/performanceindex?;趯?duì)第二代英特爾AI增強(qiáng)SDV SoC GPU+NPU與MBL i7-13800HAQ CPU+GPU(關(guān)閉睿頻)的內(nèi)部預(yù)測(cè),AI性能最高可提升十倍。

分享到

songjy

相關(guān)推薦