KTransformers – 清华开源的大语言模型推理优化框架

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTransformers基于GPU/CPU异构计算策略,用MoE架构的稀疏性,支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版,预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

新闻资讯 2026-05-22 PPISO
2 0

文章摘要

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTransformers基于GPU/CPU异构计算策略,用MoE架构的稀疏性,支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版,预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。

特别声明

本文内容由 PPISO 编辑整理发布,仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时,请以对应官方网站信息为准。

原文链接:http://ainav.ppiso.com/xwzx/3111.html

本文标签

这篇文章暂未设置标签。

相关阅读

暂无相关阅读。

评论交流

暂无评论,欢迎留下你的看法。