Arm KleidiAI助力提高PyTorch上LLM推理功能-锐评时讯

Arm KleidiAI助力提高PyTorch上LLM推理功能

时间：2025-05-21 19:23:20 来源：锐评时讯作者：经济阅读：340次

作者：Arm。基础设施事业部软件。工程师。Nobel Chowdary Mandepudi。

生成式。人工智能。(。AI。) 正在。科技。范畴发挥关键作用，许多企业现已开端将大言语模型 (LLM) 集成到云端和边际侧的运用中。生成式 AI 的引进也使得许多结构和库得以开展。其间，PyT。or。ch 作为抢手的。深度学习。结构尤为杰出，许多企业均会挑选其作为开发 AI 运用的库。经过布置 Arm Kleidi 技能，Arm 正在尽力优化 PyTorch，以加快在依据 Arm 架构的。处理器。上运转 LLM 的功用。Arm 经过将 Kleidi 技能直接集成到 PyTorch 中，简化了。开发者。拜访该技能的方法。

在本文中，咱们将经过一个演示运用来展现 Arm KleidiAI 在 PyTorch 上运转 LLM 完成的功用进步。该演示运用在依据 Arm Neoverse V2 的。亚马逊。云科技 (AWS) Graviton4 R8g.4xlarge EC2 实例上运转 Llama 3.1。假如你感兴趣，能够运用以下 Learning Path，自行重现这个演示。

演示运用。

咱们的演示运用是一个依据 LLM 的谈天。机器人。，能够答复用户提出的各种问题。该演示运用 Arm 渠道上的 PyTorch 结构运转 Meta Llama 3.1 模型，并被规划成一个运用 Streamlit 前端的浏览器运用。Streamlit 将。信息。供给给 Torchat 结构，后者运转 PyTorch 并作为 LLM 后端。Torchat 输出的信息进入注意力层并生成词元 (token)。这些词元运用 OpenAI 结构流式传输功用发送到前端，并在浏览器运用上显现给用户。该演示的架构下图所示。

图：演示架构。

演示运用在 LLM 推理完毕后测定并显现以下功用目标：

生成首个词元的用时（秒）：关于 LLM 推理，需求快速生成首个词元，以尽量削减推迟并向用户供给即时输出。

解码速度/文本生成（词元/秒）：每秒词元数是指生成式 AI 模型生成词元的速率。生成下一个词元的时刻最长不超越 100 毫秒，这是交互式谈天机器人的行业标准。这意味着解码速度至少为 10 个词元/秒。这关于进步实时运用的用户体会至关重要。

生成百万词元的本钱（美元）：依据 AWS 云端 EC2 实例的解码速度和每小时本钱，咱们能够计算出生成 100 万个词元的本钱，这也是一个常用的比较目标。因为每小时本钱是固定的，解码速度越快，生成百万词元的本钱就越低。

生成提示词的总用时（秒）：这是运用一切词元生成提示词所花费的总时刻。

生成提示词的总本钱（美元）：这是依据运用一切词元生成完好提示词的总时刻、解码速度和云端机器本钱计算得出的。

下图显现了示例呼应，可作为运用所示目标验证谈天机器人的示例。生成首个词元的时刻短于 1 秒，解码速率为 33 个词元/秒，这两项数据都十分令人满意，而且满意交互式谈天机器人的行业标准。

图：包括示例呼应和目标的演示。

针对 PyTorch 的 KleidiAI 优化。

KleidiAI 库为 Arm 渠道供给了多项优化。Kleidi 在 Torch ATen 层中供给了一个新算子以加载模型。该层将模型权重以特定格局打包在内存中，使得 KleidiAI GEMM 内核可用来进步功用。同样地，针对模型履行的优化运用了 ATen 层中的另一个算子。该算子对从前打包的模型权重进行 matmul 运算的量化。

在咱们的演示中，该模型是从 Meta Hugging Face 库。下载。的。该模型运用 INT4 内核布局打包在内存中，然后运用针对 PyTorch 优化的 INT4 KleidiAI 内核进行量化。该演示的架构如下图所示。

图：针对 PyTorch 完成的 KleidiAI 优化。

运用咱们 Learning Path 中包括的补丁[注]，可将这些 KleidiAI 优化运用到 PyTorch、Torchchat 和 Torchao 中。你能够运用这些补丁来检查 Arm 渠道上的 PyTorch 为作业负载带来的 LLM 推理功用进步。

注：Arm KleidiAI 的 PyTorch 补丁正在与上游 PyTorch 兼并，并将在未来的 PyTorch 官方版别中供给。

功用。

为了印证 KleidiAI 的功用优势，咱们运用 PyTorch 运转相同的谈天机器人运用，并测定了 KleidiAI 优化前后的每秒生成词元数和生成首个词元的用时，成果如下图所示。

图：功用比较。

能够看到，将 KleidiAI 库运用到现有的生成式 AI 技能栈中能够大大进步词元生成速率，并缩短为不同生成式 AI 模型生成首个词元的时刻。

定论。

关于谈天机器人等实时作业负载来说，在。 CPU。上运转 LLM 推理可行且有用。咱们在之前《在依据 Arm Neoverse 的 AWS Graviton3 CPU 上完成超卓功用》文章中运用 Llama.cpp 演示了这一点。在本文中，咱们展现了筹办运用 KleidiAI 库为 Arm 渠道上的 PyTorch 完成杰出的 LLM 推理功用。经过运用搭载 Neoverse V2 中心且依据 AWS Graviton4 的 R8g 实例进行演示，印证了 KleidiAI 为在 Arm 渠道上运用 PyTorch 运转 LLM 推理完成了明显的功用进步。开发者现在能够使用 Arm 针对 PyTorch 的 KleidiAI 优化来运转新的或现有的 AI 运用。

内容来源：https://havascm.com/app-1/thánh đập bàn phím,https://chatbotjud-hml.saude.mg.gov.br/app-1/joysporn

(责任编辑：女性)

系统发生错误

您可以选择 [ 重试 ] [ 返回 ] 或者 [ 回到首页 ]

[ 错误信息 ]

页面发生异常错误，系统设置开启调试模式后，刷新本页查看具体错误！