怎么使用 OpenVINO 在本地运转 Qwen 2.5
近期阿里通义实验室在 Hugging Face 和 ModelScope 上开源了 Qwen2.5-VL 的 Base 和 Instruct 模型,包括 3B、7B 和 72B 在内的 3 个模型标准。其间,Qwen2.5-VL-7B-Instruct 在多个使命中逾越了 GPT-4o-mini,而 Qwen2.5-VL-3B 作为端侧 AI 的潜力股,乃至逾越了之前版别 的Qwen2-VL 7B 模型。Qwen2.5-VL 增强了模型对时间和空间标准的感知才能,在空间维度上,Qwen2.5-VL 不只能够动态地将不同标准的图画转化为不同长度的 token,运用图画的实践标准来表明检测框和点等坐标,这也使得Qwen2.5-VL模型能够直接作为一个视觉 Agent,推理并动态地运用东西,具有了运用电脑和运用手机的才能。
本文引证地址:
本文将共享怎么运用英特尔 OpenVINO™ 东西套件在本地加快Qwen2.5-VL系列模型的推理使命。
内容列表。
1.环境预备。
2.模型下载和转化。
3.加载模型。
4.预备模型输入。
5.运转图画了解使命。
1 环境预备。
该示例依据Jupyter Notebook编写,因而咱们需求预备好相对应的Python环境。根底环境能够参阅以下链接装置,并依据自己的操作系统进行挑选详细过程。
https://github.com/openvinotoolkit/openvino_notebooks?tab=readme-ov-file#-getting-started。
图:根底环境装置导航页面。此外本示例将依靠qwen-vl-utils以及optimum-intel组件,其间装置optimum-intel过程中将主动装置OpenVINO™ runtime, NNCF及Transformers等相关依靠库。
2 模型下载和转化。
这一步中,咱们需求完结将Qwen2.5-VL .safetensor格局模型转化为OpenVINO™ IR格局,并对其进行INT4权重量化,完结对模型体积的紧缩。为了到达这一意图,optimum-intel供给了指令行东西:optimum-cli,依据该东西,咱们只需一行指令便可完结上述过程:
其间“—model”参数后的“Qwen/Qwen2.5-VL-3B-Instruct”为模型在HuggingFace上的model id,这儿咱们也提早下载原始模型,并将model id替换为原始模型的本地途径,针对国内开发者,引荐运用ModelScope魔搭社区作为原始模型的下载途径,详细加载办法能够参阅ModelScope官方攻略:https://www.modelscope.cn/docs/models/download。
3 加载模型。
接下来需求完结对模型推理使命的初始化,并将模型载入到指定硬件的内存中,相同的,咱们能够运用optimum-intel封装好的OpenVINO™ 视觉多模态使命目标 OVModelForVisualCausalLM 目标完结该操作。
如示例代码所示,经过OVModelForVisualCausalLM的from_pretrained函数接口,能够很方便地依据用户供给的模型途径,将模型载入到指定的硬件渠道,完结视觉多模态使命的初始化。
4 预备模型输入。
第四步需求依据Qwen2.5-VL模型要求的prompt template预备模型的输入数据。数据格局如下:
其间:。
■ “role“字段用于指定对话人物,包括system, user以及assistant三种类型;
■ "content"字段表明对话人物输出的内容,其间”type”为内容类别,包括image,video,text三种类型,支撑多张image输入。
接下来能够经过Qwen官方供给的办法将用户输入的text和image编码为模型的输入tensor。
5 运转图画了解使命。
最终一步需求调用模型目标的generation函数,进行答案生成,这儿能够经过增加TextStreamer迭代器的办法,在指令行中流式输出文本内容。
依据示例图片生成生成对话内容如下所示:
Question:。
Describe this image.。
Answer:。
The image depicts a serene beach scene at sunset. A person is sitting on the sandy beach, facing a light-colored dog, likely a Labrador Retriever, which is also sitting and facing the person. The dog appears to be wearing a harness with a leash attached, suggesting that it might be a pet. The person is dressed in a plaid shirt and shorts, and they are smiling, indicating a happy and relaxed moment. The background shows the ocean with gentle waves and the sun setting, casting。
图:Gradio示例界面。6 总结。
Qwen2.5-VL 系列模型的发布带来了更精准的视觉定位,文字了解以及Agent智能体才能。OpenVINO™ 则能够以更低的资源占用,高效地在本地运转Qwen2.5-VL视觉多模态模型,激起AIPC异构处理器的潜能。信任构建面向桌面操作系统的本地智能体使用已不再悠远。
参阅示例。
https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/qwen2.5-vl。
内容来源:https://nlsngoisaoviet.com/app-1/vn ku6110 net,http://chatbotjud-teste.saude.mg.gov.br/app-1/rico-pg
(责任编辑:女性)