KTransformers – 清华开源的大语言模型推理优化框架

KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目，能优化大语言模型的推理性能，降低硬件门槛。KTransformers基于GPU/CPU异构计算策略，用MoE架构的稀疏性，支持在仅24GB显存的单张显卡上运行DeepSeek-R1、V3的671B满血版，预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。

新闻资讯 2026-05-22 PPISO

2 0

文章摘要

KTransformers是什么

KTransformers的主要功能

支持超大模型的本地推理：支持在仅24GB显存的单张显卡上运行DeepSeek-R1等671B参数的满血版大模型，打破传统硬件限制。
提升推理速度：预处理速度最高可达286 tokens/s，推理生成速度达14 tokens/s。
兼容多种模型和算子：支持DeepSeek系列及其他MoE架构模型，提供灵活的模板注入框架，支持用户切换量化策略和内核替换，适应不同优化需求。
降低硬件门槛：将大模型的显存需求大幅降低，让普通用户和中小团队能在消费级硬件上运行千亿级参数模型，实现“家庭化”部署。
支持长序列任务：整合Intel AMX指令集，CPU预填充速度可达286 tokens/s，相比传统方案快28倍，将长序列任务的处理时间从“分钟级”缩短到“秒级”。

KTransformers的技术原理

MoE架构：将稀疏的MoE矩阵卸载到CPU/DRAM上处理，稠密部分保留在GPU上，大幅降低显存需求。
offload策略：根据计算强度将任务分配到GPU和CPU：计算强度高的任务（如MLA算子）优先分配到GPU，计算强度低的任务分配到CPU。
高性能算子优化：
- CPU端：用llamafile作为CPU内核，结合多线程、任务调度、负载均衡等优化，提升CPU推理效率。
- GPU端：引入Marlin算子，专门优化量化矩阵计算，相比传统库（如Torch）实现3.87倍的加速效果。
CUDA Graph优化：基于CUDA Graph减少Python调用开销，降低CPU/GPU通信的断点，实现高效的异构计算协同。每次decode仅需一个完整的CUDA Graph调用，显著提升推理性能。
量化与存储优化：采用4bit量化技术，进一步压缩模型存储需求，仅需24GB显存即可运行671B参数模型。同时优化KV缓存大小，减少存储开销。
模板注入框架：提供基于YAML的模板注入框架，支持用户灵活切换量化策略、内核替换等优化方式，适应不同场景的需求。