无问芯穹发布全球首个端侧全模态了解的开源模型Megrez
12月16日,无问芯穹宣告正式开源其“端模型+端软件+端IP”端上智能一体化解决计划中的小模型——全球首个端侧全模态了解开源模型Megrez-3B-Omni,并同步开源了纯言语版别模型Megrez-3B-Instruct。
据介绍,Megrez-3B-Omni是一个为端而生的全模态了解模型,挑选了最适合手机、平板等端侧设备的30亿参数黄金尺度,结构规整,推理速度最大领先同精度模型300%。作为一个全模态模型,Megrez-3B-Omni一起具有图片、音频、文本三种模态数据的处理才能,并在三个模态的多种测评基准中获得了最优功用。
Github: https://github.com/infinigence/Infini-Megrez。
HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni。
图片、文本、音频,全模态高功用。
Megrez-3B-Omni 回绝献身任何模态的精度,在图片、文本、音频三个模态中均获得了同尺度下最优功用。无论是和相同三模态的VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ,仍是双模态的MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,又或是单一模态的Qwen、Baichuan 等模型比较,Megrez-3B-Omni 在干流基准测验集上的体现都毫不逊色。
图片了解:3B体量对标34B模型体现。
在图画了解方面,Megrez-3B-Omni 作为一个体积仅为3B的模型,其归纳功用体现能够全面逾越34B的庞然大物,逾越LLaVA-NeXT-Yi-34B 等模型,是现在OpenCompass、MME、MMMU、OCRBench等多个干流测验集上精度最高的图画了解模型之一。
与此一起,Megrez-3B-Omni 在场景了解、OCR 等使命上也具有杰出体现,能够精确洞悉和剖析图画中的场景内容,并高效地从中提取文本信息,且无论是含糊的印刷体仍是杂乱的手写字,都能够轻松辨认。
Megrez-3B-Omni 屏幕辨认。
Megrez-3B-Omni 手写体辨认。
文本了解:逾越上一代14B最佳模型。
在文本了解方面,作为全模态了解模型,Megrez-3B-Omni 没有献身模型的文本处理才能,将上一代14B大模型的优异才能紧缩至3B规划,明显下降了核算成本、提高了核算功率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个威望测验集上更是获得端上模型最优精度,在文本了解方面获得全球领先地位。
Megrez-3B-Omni 文本了解。
Megrez-3B-Omni 代码了解。
音频了解:轻松以音问图、以音解文、以音听音。
在语音了解方面,Megrez-3B-Omni 的作用比肩职业干流计划。Megrez-3B-Omni不只支撑中文和英文的语音输入,还能够处理杂乱的多轮对话场景,更能支撑对输入图片或文字的语音发问,完结不同模态间的自在切换。用户就恣意模态内容,宣布语音指令,Megrez-3B-Omni 就能依据语音指令直接呼应文本,让用户能够经过更少动作与模型打开更直观、天然的交互。
Megrez-3B-Omni 语音了解。
Megrez-3B-Omni 多种模态自在切换。
令人惊叹的推理功率。
模型的规划并不是决议其速度的仅有要素,因而模型小并不一定就意味着速度快。凭仗对硬件特性的深化了解与使用,Megrez-3B-Omni 经过软硬件协同优化战略,保证了各参数与干流硬件高度适配,以完结硬件功用的使用最大化。与上一代及其他端侧大言语模型比较,单模态版别的Megrez-3B-Instruct 在推理速度上获得了明显提高,最大推理速度能够领先同精度模型300%。
多场景灵敏使用。
Megrez-3B-Instruct 这次还特别供给了WebSearch 功用,这一功用使得模型能够智能地判别何时需求调用外部东西进行网页查找,辅佐答复用户的问题。用户得以构建归于自己AI查找,经过网络获取最新信息,战胜小模型的错觉问题和常识储藏缺乏的限制。
有时,模型经过查找网页能够更全面地完结答复,而其他时分,模型本身已具有满足的常识来独立解决问题,过多的查找调用可能会下降推理速度和作用。Megrez-3B-Instruct 经过在查找和对话之间智能切换,避免了过度依靠查找或彻底不调用查找的问题。除了能够主动决议计划东西调用机遇之外,Megrez-3B-Instruct 还具有上下文了解功用优异、可供给带参阅信息的结构化输出等优势。现在,这些才能都已集成于Megrez-3B-Instruct 模型中,用户能够经过System Prompt 自在切换,一起享受到高精度模型推理才能与智能WebSearch 调用收益。
端上智能需求一体化解决计划。
相较于云端大模型,端侧模型需求在资源有限的设备上快速布置、高效运转,对下降模型核算和存储需求提出更高要求。无问芯穹技能团队源起于清华大学电子工程系NICS-EFC实验室,在模型紧缩、推理加快及硬件能耗优化等范畴具有深化的学术研究和深沉的工程实践经验,是模型轻量化、软硬件协同优化范畴的顶尖团队。
无问芯穹表明,Megrez-3B-Omni是一个才能预览,接下来还将继续迭代Megrez系列,提高主动化水平至“edge device use”作用,让用户只需求给出简略的语音指令,就可完结端设备的设置或使用操作,并将它作为“端模型+端软件+端IP”端上智能一体化解决计划的重要构成推向市场。
在这个计划中,除端侧全模态了解模型外,还有端上推理软件和IP规划计划,不只支撑CPU、GPU和NPU 的一起推理,更能经过跨过软硬件层次的体系优化,额定带来最高可达70%的功用提高,最大化端侧硬件功用的使用。
经过“端模型+端软件+端IP”一体化规划,无问芯穹将继续致力于为端侧设备供给更完好、对硬件使用更高效的智能计划,促进大模型在端侧设备上完结更高推理速度与更低能耗,推进端侧智能更快迎候AGI到来。
(大众号:)。
版权文章,未经授权制止转载。概况见转载须知。