怎么运用OpenVINO运转DeepSeek
作者:人文 来源:经济 浏览: 【大 中 小】 发布时间:2025-05-26 02:32:45 评论数:
作者:
张晶。英特尔。立异大使。
李翊玮。英特尔。开发者。技能推广。工程师。
DeepSeek-R1在新年期间引发了全球。科技。界的热度,DeepSeek-R1 是由 DeepSeek 开发的开源推理模型,用于处理需求逻辑推理、数学问题处理和实时决议计划的使命。运用 DeepSeek-R1,您能够遵从其逻辑,使其更易于了解,并在必要时对其输出提出质疑。此功用使推理模型在需求解说成果的范畴(如研讨或杂乱决议计划)中具有优势。AI。中的蒸馏从较大的模型创立更小、更高效的模型,在削减核算需求的一起保留了大部分推理才能。DeepSeek 运用了这项技能,运用 Qwen 和 Llama 架构从 R1 创立了一套提炼的模型。这使咱们能够在一般笔记本。电脑。上本地试用 DeepSeek-R1 功用。在本。教程。中,咱们将研讨怎么运用 OpenVINO 运转 DeepSeek-R1 蒸馏模型。
在立异大使的文章《赶忙在本地运转与OpenAI-o1才能近似的DeepSeek-R1模型》也收到了读者的火热反应。许多读者问:DeepSeek-R1除了布置在RTX-4060上,能否布置到英特尔Ultra Core 的。CPU。、。GPU。或NPU上?
本文将根据OpenVINO GenAI库,介绍运用三行。Python。代码,将DeepSeek-R1模型到英特尔酷睿Ultra CPU、GPU或NPU的完好进程。
赶忙在本地运转与OpenAI-o1才能近似的DeepSeek-R1模型。
https://mp.weixin.qq.com/s/Nu6ovClNOAfhXa-exnlWdg。
OpenVINO GenAI库。
https://mp.weixin.qq.com/s/1nwi3qJDqAkIXnrGQnP3Rg。
1。硬件介绍。
本文是用KHARAS深圳市世野科技(https://www.khadas.com/product-page/mind-maker-kit-lnl)供给根据英特尔酷睿Ultra的AI PC,只要43。5g。, 以下为其。参数。:
。
主要特点。
o。Intel。C。or。e Ultra Processor Series 2。
oAI Pe。rf。ormance: up to 115 TOPS。
oNPU: 4.0 AI Engine, up to 47 TOPS。
oGPU: Intel Arc 140V, up to 64 TOPS。
o32GB LP。DDR。5X Memory, 1TB PCIe S。SD。
oCo。pi。lot+ PC: Windows AI assistant。
oBat。te。ry Life Op。ti。mization。
oWiFi+ Bluetooth: AX211D2。
运用场景。
AI PC 开发。
o 以 AI 为。中心。的硬件和软件的前进使 AI 在 PC 上成为或许。将项目从前期 AI 开发无缝过渡到根据云的练习和边际布置。
多个。处理器。中的 AI 加快。
o 英特尔 酷睿 Ultra 7 258V 处理器经过混合架构将 CPU、GPU 和 NPU 相结合,并经过高带宽内存和缓存进行增强,然后加快 AI。
Intel AI PC 开发支撑。
o 经过针对 Intel CPU 和 GPU 优化的 OpenVINO 东西包和 ONNX 运转时取得 Intel 官方支撑。
2。什么是OpenVINO。GenAI库?
回到标题, 咱们将用OpenVINO GenAI库根据OpenVINO 东西套件和运转时,供给。C++。/Python API,支撑生成式AI模型在英特尔硬件平台上快速布置。
OpenVINO GenAI库。
https://mp.weixin.qq.com/s/1nwi3qJDqAkIXnrGQnP3Rg。
OpenVINO 东西套件。
https://mp.weixin.qq.com/s/fORowUzzcPSVIO6AieoUKA。
Github仓:https://github.com/openvinotoolkit/openvino.genai。
3。建立OpenVINOGenAI开发环境。
只需两条装置指令,即可完结OpenVINO GenAI开发环境的建立:
# 装置OpenVINO GenAIpip install openvino-genai# 装置optimum-intel,用于转化并量化生成式AI模型pip install pip install optimum-intel[openvino]。
4。下载。并量化DeepSeek-R1模型。
请先运用下面的指令,从ModelScope下载DeepSeek-R1-Distill-Qwen-1.5B模型到本地:
# 装置ModelScopepip install modelscope# 下载DeepSeek-R1-Distill-Qwen-1.5B模型modelscope downlo。ad。--model deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B。
5。运用 Optimum-CLI 东西转化模型。
本文运用optimum-intel指令,将DeepSeek-R1-Distill-Qwen-1.5B PyTorch格局模型转化为OpenVINO IR格局模型,并完结FP16、INT8或INT4量化。
Optimum Intel 是 Transforme。rs。和 Diffusers 库与 OpenVINO 之间的。接口。,用于加快 Intel 架构上的端到端管道。它供给易于运用的 cli 界面,用于将模型导出为 OpenVINO 中心表明 (IR)格局。
以下指令演示了运用optimum-cli 导出模型的根本指令。
optimum-cli export openvino --model--task。 <任务>
其间--model 参数是 HuggingFace Hub 中的模型 ID 或带有 model 的本地目录(运用 .save_pretrained 办法保存),--task 是导出的模型应该处理的支撑使命之一。关于 LLM,主张运用 text-generation-with-past。假如模型初始化需求运用长途代码,则应额定传递--trust-remote-code 标志。
optimum-cli export openvino --model d:DeepSeek-R1-Distill-Qwen-1___5B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym d:dsr1_int4optimum-cli export openvino --model d:DeepSeek-R1-Distill-Qwen-1___5B --task text-generation-with-past --weight-format int8 d:dsr1_int8optimum-cli export openvino --model d:DeepSeek-R1-Distill-Qwen-1___5B --task text-generation-with-past --weight-format fp16 d:dsr1_fp16。
设置 --weight-format 分别为 fp16、int8 或 int4。这种类型的优化能够削减内存占用和推理推迟。默许情况下,int8/int4 的量化计划对错对称的,要使其对称化,您能够增加 --sym。
关于 INT4 量化,您还能够指定以下参数:
--group-size 参数将界说用于量化的组巨细,-1 将导致每列量化。
--ratio 参数操控 4 位和 8 位量化之间的比率。假如设置为 0.9,则意味着 90% 的层将被量化为 int4,而 10% 的层将被量化为 int8。
较小的 group_size 和 ratio 值通常会以献身模型巨细和推理推迟为价值来进步准确性。您能够运用 --awq 标志启用在模型导出期间以 INT4 精度额定运用 AWQ,并运用 --datasetpa。ram。eter 供给数据集称号(例如 --dataset wikitext2)。
留意:
1. 运用 AWQ 需求很多的内存和时刻。
2. 模型中或许没有匹配的形式来运用 AWQ,在这种情况下,将越过它。
6。编写DeepSeek-R1的推理程序。
取得DeepSeek-R1的OpenVINO IR模型后,即可运用OpenVINO GenAI库编写推理程序,仅需三行Python代码,如下所示:
import openvino_genai#Will run model on CPU, GPU or NPU are possible optionspipe = openvino_genai.LLMPipeline("D:dsr1_int4", "GPU")print(pipe.generate("Prove the Pythagorean theorem.", max_new_tokens=4096))。
运转。视频。如下所示:
7。总结。
运用OpenVINO GenAI库能够方便快捷的将生成式AI模型本地化布置到英特尔 酷睿Ultra CPU、GPU或NPU上。