游客发表
快科技11月5日音讯,近来,摩尔线程上线了大言语模型高速推理结构开源项目vLLM的MUSA移植版别。,为开发者供给根据摩尔线程全功能GPU进行开源项目MUSA移植的典范。
摩尔线程表明,正尽力环绕自主研制的一致体系架构GPU、MUSA软件渠道,构建完善好用的MUSA使用生态。
vLLM是一个高效且易用的大模型推理和服务结构,支撑立异的PagedAttention内存办理、接连批处理恳求、CUDA/HIP图的快速模型履行、CUDA中心优化、分布式推理支撑等,可明显提巨大言语模型(LLM)的推理功能。
现在,vLLM已在各种大言语模型中得到广泛使用,成为业界常用的开源大模型推理结构。
摩尔线程根据vLLM v0.4.2版别,进行了移植适配,使之支撑摩尔线程GPU后端Device,并彻底开源,开发者能够二次开发、晋级vLLM到社区更新版别等。
值得一提的是,得益于摩尔线程MUSA架构的先进性、软件栈对CUDA的优秀兼容性,经过MUSIFY代码主动转化东西,用户能够方便地将原有的CUDA代码迁移到MUSA渠道,完成代替。
一起,CUDA相关库的调用,也能够快速替换为相应的MUSA加快库,如算子库muDNN、调集通讯库MCCL、线性代数库muBLAS等。
摩尔线程经过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了使用移植的功率,缩短了开发周期,还供给MUSIFY主动代码移植东西等一系列实用东西和脚本。
摩尔线程vLLM-MUSA开源地址:
https://github.com/MooreThreads/vLLM_musa。