DeepSeek又有大动作!
开源周第三天,DeepSeek宣告开源Optimized Parallelism Strategies(优化并行战略)。
Optimized Parallelism Strategies,该战略是为了进步核算功率、削减资源糟蹋并最大化体系功能而规划的并行核算计划。这些战略经过合理分配使命、和谐资源运用和削减通讯开支,完成在多核、分布式或异构体系中的高效并行履行。
。与此一起,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,完成了推理速度进步25倍,而且每token本钱下降20倍的惊人效果。这一新模型的推出,标志着英伟达在人工智能范畴的又一次重大进展。
。动作不断。
DeepSeek开源周第四天,今日早上,该公司再度开源优化并行战略,包含DualPipe、专家并行负载均衡器 (EPLB)、DeepSeek Infra 中的功能剖析数据。优化并行战略需依据使命类型、数据规划、硬件环境灵敏挑选,平衡核算、通讯和存储开支,终究完成高效、可扩展的并行核算。该战略是为了进步核算功率、削减资源糟蹋并最大化体系功能而规划的并行核算计划。
最近,DeepSeek硬核不断。此前,该公司宣告将DeepEP向大众敞开。在宣告后的约20分钟内,DeepEP已在 GitHub、微软(MSFT.US)等平台上取得超越1000个 Star保藏。
据悉,DeepEP是MoE模型练习和推理的Expert Parallelism通讯根底,可完成高效优化的全到全通讯,以支撑包含FP8在内的低精度核算,适用于现代高功能核算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化,不只供给高吞吐量,还支撑流式多处理器数量操控,然后在练习和推理使命中完成高吞吐量功能。
此外,2月26日,DeepSeek宣告即日起在北京时间每日00:30至08:30的夜间闲暇时段,大幅下调API调用价格,其间DeepSeek-V3降至原价的50%,DeepSeek-R1更是低至25%,降幅最高达75%。该公司称,这一行动旨在鼓舞用户充分运用夜间时段,享用更经济、更流通的服务体会。
。英伟达亦借机打破。
近来,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,完成了推理速度进步25倍,而且每token本钱下降20倍的惊人效果。这一新模型的推出,标志着英伟达在人工智能范畴的又一次重大进展。
依据媒体报道,DeepSeek-R1的本地化布置现已引起广泛重视,英伟达也亲身下场,开源了根据Blackwell架构的优化计划——DeepSeek-R1-FP4。这一新模型在推理吞吐量上达到了高达21,088 token每秒,与H100的844 token每秒比较,进步起伏高达25倍。一起,每token的本钱也完成了20倍的下降。
英伟达经过在Blackwell架构上运用TensorRT DeepSeek优化,让具有FP4出产级精度的模型,在MMLU通用智能基准测验中达到了FP8 模型功能的99.8%。现在,英伟达根据FP4优化的DeepSeek-R1检查点现已在Hugging Face上开源,而且可以经过以下链接拜访模型地址:DeepSeek-R1-FP4。
在后练习量化方面,该模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。这一优化使每个参数的位数从8位削减到4位,然后让磁碟空间和GPU显存的需求削减了约1.6倍。
运用TensorRT-LLM布置量化后的FP4权重文件,可以为给定的提示生成文本呼应,这需求支撑TensorRT-LLM的英达GPU(如 B200),而且需求8个GPU来完成tensor_parallel_size=8的张量并行。这段代码运用FP4量化、TensorRT引擎和并行核算,旨在完成高效、低本钱的推理,合适出产环境或高吞吐量运用。
据报道,针对此次优化的效果,网友们表明惊叹,称「FP4 魔法让 AI 未来仍然敏锐!」有网友评论道,这次的优化使得美国供货商可以以每百万token 0.25美元的价格供给R1,并以为「还会有赢利」。
现在,DeepSeek的开源活动继续进行。周一,DeepSeek 开源了 FlashMLA,这是专为英伟达Hopper GPU打造的高效MLA译码内核,特别针对变长序列进行了优化。周二则推出了DeepEP,这是一个为混合专家体系(MoE)和专家并行(EP)规划的通讯库。周三开源的是 DeepGEMM,这是一个支撑稠密和 MoE 模型的 FP8 GEMM 核算库,为 V3/R1 的练习和推理供给强壮支撑。
整体而言,无论是英伟达开源的 DeepSeek-R1-FP4,仍是 DeepSeek 开源的其他三个库房,都是经过对辉达 GPU 和集群的优化,来推进 AI 模型的高效核算和布置。