阿里开源首个全模态大模型Qwen2.5-锐评时讯

3月27日清晨，阿里巴巴发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B，可一起处理文本、图画、音频和视频等多种输入，并实时生成文本与天然语音组成输出。在威望的多模态交融使命OmniBench等测评中，Qwen2.5-Omni改写业界纪录，全维度远超Google的Gemini-1.5-Pro等同类模型。Qwen2.5-Omni以挨近人类的多感官方法「立体」认知国际并与之实时交互，还能经过音视频辨认心情，在杂乱使命中进行更智能、更天然的反应与决议计划。现在，开发者和企业可免费下载商用Qwen2.5-Omni，手机等终端智能硬件也可轻松布置运转。

图示功能测评比照。

Qwen2.5-Omni采用了通义团队全新创始的Thinker-Talker双核架构、Position Embedding （方位嵌入）交融音视频技能、方位编码算法TMRoPE（Time-aligned Multimodal RoPE）。双核架构Thinker-Talker让Qwen2.5-Omni具有了人类的“大脑”和“发声器”，形成了端到端的一致模型架构，完成了实时语义了解与语音生成的高效协同。详细而言，Qwen2.5-Omni支撑文本、图画、音频和视频等多种输入方式，可一起感知一切模态输入，并以流式处理方法实时生成文本与天然语音呼应。

得益于上述打破性立异技能，Qwen2.5-Omni在一系列平等规划的单模态模型威望基准测验中，展示出了全球最强的全模态优异功能，其在语音了解、图片了解、视频了解、语音生成等范畴的测评分数，均领先于专门的Audio或VL模型，且语音生成测评分数（4.51）达到了与人类相等的才能。

相较于动辄数千亿参数的闭源大模型，Qwen2.5-Omni以7B的小尺度让全模态大模型在工业上的广泛使用成为可能。即使在手机上，也能轻松布置和使用Qwen2.5-Omni模型。当时，Qwen2.5-Omni已在魔搭社区和Hugging Face 同步开源，用户也可在Qwen Chat上直接体会。

从2023年起，阿里通义团队就连续开发了掩盖0.5B、1.5B、3B、7B、14B、32B、72B、110B等参数的200多款「全尺度」大模型，包括文本生成模型、视觉了解/生成模型、语音了解/生成模型、文生图及视频模型等「全模态」，真实完成了让普通用户和企业都用得上、用得起AI大模型。到现在，海内外AI开源社区中千问Qwen的衍生模型数量打破10万，逾越美国Llama系列模型，是公认的全球榜首开源模型。

版权文章，未经授权制止转载。概况见转载须知。

阿里开源首个全模态大模型Qwen2.5

内容来源：https://noidia.htllogistics.vn/app-1/gio phieu luu danh bai,http://chatbotjud-teste.saude.mg.gov.br/app-1/reality-kings

系统发生错误