根据AX650N/AX630C布置多模态大模型InternVL2
布景。
InternVL2是由上海。人工智能。实验室OpenGVLab发布的一款多模态大模型,中文名称为“墨客·万象”。该模型在多学科。问答。(MMMU)等使命上表现出色,而且具有处理多种模态数据的才能。
本文将经过蜻蜓点水的方法,根据InternVL2宗族中最小的InternVL2-1B模型来介绍其技能特色。一起也将共享根据爱芯元智的AX650N、AX630C两款端侧。AI。芯片。适配InternVL2-1B的根本操作方法,向业界对端侧多模态大模型布置的。开发者。供给一种新的思路,促进社区对端侧多模态大模型的探究。
技能特性。
多模态处理才能。:与更大规划的版别相同,InternVL2-1B支撑图画和文本数据的联合处理,旨在了解和生成跨模态的内容。
轻量化便利。:1B。参数。规划意味着相对较小的模型尺度,这使得InternVL2-1B更适合布置在资源受限的环境中,如移动设备或边际核算场景中。尽管参数较少,经过精心便利,它仍能坚持杰出的功用。
渐进式对齐练习战略。:选用从小到大、从粗到精的方法进行练习,这样值勤运用更少的核算资源到达较高的作用,一起也促进了模型的常识搬迁才能。
高效的架构便利。:为了在有限的参数下完成最佳功用,InternVL2-1B或许选用了特别优化的。网络。结构或注意力机制,保证即便在较低参数量的情况下也能有效地捕捉杂乱的视觉言语关联性。
支撑多种下流使命。:尽管是较小类型,InternVL2-1B应该依然可以履行一系列根本的视觉-言语使命,比方图画描绘生成、视觉问答等,为用户供给了必定程度的功用多样性。
开放源代码与模型权重。:假如遵从OpenGVLab的一向做法,那么InternVL2-1B的代码及预练习模型应该也是开源供给的,便利研究者和开发者运用。
功用指标。
AX650N。
爱芯元智第三代高能效比。智能。视觉芯片AX650N。集成了八核C。or。tex-A55。 CPU。,高能效比NPU,支撑8K30fps的ISP,以及H.264、H.265编解码的 VPU。接口。方面,AX650N支撑64bit LP。DDR。4x,多路MI。PI。输入,千兆。Ethernet。、。USB。、以及。HDMI。2.0b输出,并支撑32路1080p30fps解码内置高算力和超强编解码才能,满意职业对高功用边际智能核算的需求。经过内置多种。深度学习。算法。,完成视觉结构化、行为剖析、状况。检测。等运用,高功率支撑根据 Transformer结构的视觉大模型和言语类大模型。供给丰厚的开发文档,便利用户进行二次开发。
AX630C。
爱芯元智第四代智能视觉芯片AX630C,该芯片集成新一代智眸4.0AI-ISP,最高支撑4K30fps实时真黑光,一起集成新一代通元4.0高功用、高能效比NPU引擎,使得。产品。在低功耗、高画质、智能处理和剖析等方面职业抢先。供给安稳易用的。SD。K软件开发包,便利用户低成本评价、二次开发和快速量产。协助用户在。智能家居。运用和其他AIoT项目中发挥更大的价值。
AX630C应该是现在能效比&性价比&能跑LLM/VLM的最佳的端侧AI芯片了,因此有客户根据AX630C出品了LLM Module,欢迎重视/试用。
模型转化。
经常在AI芯片上布置AI算法模型的同学都知道,想要把模型布置到芯片上的NPU中运转,都需求运用芯片原厂供给的NPU东西链,这儿实在运用的是Pulsar2。
Pulsar2是爱芯元智的新一代NPU东西链,包含模型转化、离线量化、模型编译、异构调度四合一超强功用,进一步强化了网络模型高效布置的需求。在针对第三代、第四代NPU架构进行了深度定制优化的一起,也扩展了算子&模型支撑的才能及规划,对Transformer结构的网络也有较好的支撑。
从Pulsar2 3.2版别开端,现已增加了大言语模型编译的功用,隐藏在pulsar2 llm_build的子指令中。
模型获取。
git clone https://github.com/AXERA-。TE。CH/ax-llm-build.gitcd ax-llm-buildpip install -U huggingface_hubhuggingface-cli downlo。ad。--resume-download OpenGVLab/InternVL2-1B/ --local-dir OpenGVLab/InternVL2-1B/。
ax-llm-build。:用于暂存编译LLM、VLM时所依靠的各种辅佐小东西、脚本文件(继续更新)。
一键编译。
qtang。gpu。x2:~/huggingf。ac。e$ pulsar2 llm_build --input_path OpenGVLab/InternVL2-1B/ --output_path OpenGVLab/InternVL2-1B-ax650 --kv_cache_len 1023 --hidden_state_type bf16 --prefill_len 128 --chip AX650Config( model_name='InternVL2-1B', model_type='qwen2', num_hidden_laye。rs。=24, num_atten。ti。on_heads=14, num_key_value_heads=2, hidden_size=896, intermediate_size=4864, vocab_size=151655, rope_theta=1000000.0, max_position_embeddings=32768, rope_partial_factor=1.0, rms。_norm_eps=1e-06, norm_type='rms_norm', hidden_act='silu', hidden_act_pa。ram。=0.03, scale_depth=1.4, scale_emb=1, dim_model_base=256, origin_model_type='internvl_chat')2024-10-31 0030.400 | SUCCESS | yamain.command.llm_build109 - prepare llm model done!building vision model ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1/1 024building llm decode layers ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 24/24 013building llm post layer ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1/1 0272024-10-31 0036.175 | SUCCESS | yamain.command.llm_build185 - build llm model done!2024-10-31 0051.955 | SUCCESS | yamain.command.llm_build364 - check llm model done!。
embed提取和优化。
chmod +x ./tools/fp32_to_bf16chmod +x ./tools/embed_process.sh./tools/embed_process.sh OpenGVLab/InternVL2-1B/ OpenGVLab/InternVL2-1B-ax650。
终究InternVL2-1B-ax650目录下包含以下内容:
qtanggpux2:~/huggingface$ tree -lh OpenGVLab/InternVL2-1B-ax650/[1.6K] OpenGVLab/InternVL2-1B-ax650/├── [325M] intervl_vision_part_224.axmodel // vit-l model├── [259M] model.embed_tokens.weight.bfloat16.bin // embed file├── [ 16M] qwen2_p128_l0_together.axmodel // llm layer├── [ 16M] qwen2_p128_l10_together.axmodel├── [ 16M] qwen2_p128_l11_together.axmodel├── [ 16M] qwen2_p128_l12_together.axmodel......├── [ 16M] qwen2_p128_l5_together.axmodel├── [ 16M] qwen2_p128_l6_together.axmodel├── [ 16M] qwen2_p128_l7_together.axmodel├── [ 16M] qwen2_p128_l8_together.axmodel├── [ 16M] qwen2_p128_l9_together.axmodel└── [141M] qwen2_post.axmodel。
上板示例。
相关资料。
为了便利实在快速试用,实在在网盘中现已供给好了预编译模型和根据AX650N、AX630C两种芯片渠道的预编译示例:
大尺度。
根据AX650N,展现输入图片尺度为448*448的示例,图片。信息。量大,解读更具体,乃至展现了其OCR、中英翻译的才能。
小尺度。
根据AX630C,展现输入图片尺度为224*224的示例:
现在实在暂时未对Vision Part模块的ViT-L模型进行量化加快,所以图片编码的速度略微有点慢。可是自身AX650N、AX630C核算ViT模型的功率是十分高的,后续实在会继续优化推理耗时。
布置优化讨论。
输入图片越大,Vision Part(Image Encoder)生成的特征向量越多,核算量越大,即便是InternVL2 Family中最小的1B版别,其Vision Part也是选用的根据ViT-Large规划的图画编码模型。
图片生成的特征向量越多,输入LLM的prompt就越长,input tokens越多,T。TF。T耗时越大。
实在趁便计算了224与448两种输入尺度选用U8、U16量化后的推理耗时,提高仍是很明显。
结束语。
尽管实在只尝试了最小的InternVL2-1B布置,但能在本来定坐落低成本家用摄像头芯片(AX630C)上本地流通运转VLM现已是一个重大突破,例如无需联网(包含。蓝牙。)的智能眼镜、智能的“拍立得”、以及各种风趣的穿戴设备。
跟着大言语模型小型化的快速开展,越来越多风趣的多模态AI运用现已从云端服务搬迁到端侧设备。实在会紧跟职业。最新。动态,适配更多的端侧大模型,欢迎实在继续重视。
内容来源:https://sh.tanphatexpress.com.vn/app-1/6 line bet roulette,http://chatbotjud.saude.mg.gov.br/app-1/nacional-bet
本文地址:http://w.21nx.com/news/58857977-02c19499803.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。