Klear-Reasoner – 快手开源的推理模型

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题。

新闻资讯 2026-05-01 PPISO

2 0

文章摘要

Klear-Reasoner是什么

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题，在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开，为推理模型的发展提供重要的参考和复现路径。

Klear-Reasoner的主要功能

数学推理：Klear-Reasoner 在复杂的数学问题上表现出色，能解决高难度的数学竞赛题目。
代码生成与推理：能生成高质量的代码，通过 LiveCodeBench V5 和 V6 的评测，分别达到 66.0% 和 58.1% 的准确率。
长思维链推理：Klear-Reasoner 能处理复杂的长思维链任务，通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，提升模型在多步推理中的表现。
数据质量优化：在训练过程中，Klear-Reasoner 优先选择高质量数据源，确保模型学习到准确的推理模式，保留部分错误样本提升模型的探索能力。

Klear-Reasoner的技术原理

长思维链监督微调（long CoT SFT）：用高质量的数据源进行监督微调，确保模型学习到准确的推理模式。优先选择少数高质量数据源，避免低质量数据引入噪声。保留部分错误样本，尤其是在高难度任务中，有助于模型的探索能力。
强化学习（RL）：用强化学习进一步提升模型的推理能力，特别是在数学和代码任务上。基于软奖励机制，根据测试用例的通过率给予奖励，缓解奖励稀疏问题，提升训练效率。过滤掉测试用例存在问题的数据，确保训练数据的高质量。
GPPO（Gradient-Preserving Clipping Policy Optimization）算法：传统 PPO 和 GRPO 算法中，clip 操作会丢弃高熵 token 的梯度，限制模型的探索能力，导致负样本延迟收敛。GPPO 基于 stop gradient 操作，将 clip 操作与梯度反向传播解耦，保留所有 token 的梯度。对于高熵 token，GPPO 保留其梯度并约束在一定范围内。对于负样本 token，GPPO 保留梯度并限制在一定幅度内，加快错误修正速度。
软奖励机制：在代码任务的强化学习中，用软奖励机制（根据测试用例的通过率给予奖励）比硬奖励（完全通过得分，否则为零）更有效。软奖励机制能缓解奖励稀疏问题，增加训练信号的密度，降低梯度估计的方差，使模型的学习过程更稳定、更高效。

Klear-Reasoner的项目地址

GitHub仓库：https://github.com/suu990901/KlearReasoner/
HuggingFace模型库：https://huggingface.co/Suu/Klear-Reasoner-8B
arXiv技术论文：https://arxiv.org/pdf/2508.07629

Klear-Reasoner的应用场景

教育领域：作为智能数学家教，为学生提供详细的解题步骤和推理过程，帮助用户更好地理解和掌握数学知识。
软件开发：自动生成高质量代码片段，辅助开发者快速实现功能模块，同时提供代码审查建议，提高代码质量和开发效率。
金融科技：分析金融数据进行风险评估和预测，为金融机构提供逻辑推理支持，助力更精准的决策制定。
科研与数据分析：Klear-Reasoner 能处理复杂的数据分析和科学计算任务，为研究人员提供逻辑推理和模型解释，提升科研效率。
智能客服：快速准确地解答用户复杂问题，提供清晰的推理过程，提升用户体验和问题解决效率。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/1400.html

本文标签

这篇文章暂未设置标签。

上一篇Nano Banana – AI图像编辑模型，具有极高的人物一致性下一篇Open-Lovable – Firecrawl开源的AI网站克隆工具

评论交流

暂无评论，欢迎留下你的看法。