Auto Think – 快手开源的自动思考大模型

新闻资讯 2026-05-29 PPISO

2 0

文章摘要

Auto Think是什么

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，模型针对深度思考大模型存在的“过度思考”问题进行了深入研究，提出了一种全新的自动思考模型训练范式，基于传统强化学习算法（GRPO），提出带有过程监督的强化学习方法Step-SRPO，进一步提升模型在复杂任务中的表现。模型融合“思考”和“非思考”能力，具备根据问题难度自动切换思考形态的能力。通过这种思考形态训练，模型在多个“思考”和“非思考”评测榜单上均实现了性能提升，其中在部分代码和数学类的任务上，开启自动思考模式下的模型得分提升高达20分左右。

Auto Think的主要功能

自动切换思考形态：模型融合了“思考”和“非思考”能力，根据问题的难度自动切换思考形态。对于简单问题，模型会采用“快思考”模式，直接给出答案，避免不必要的复杂推理过程；对于复杂问题，会切换到“慢思考”模式，进行深度推理和分析，更准确地解决问题。
提升效率与性能：自动切换思考形态的能力，使模型在多个“思考”和“非思考”评测榜单上均实现了性能提升。在部分代码和数学类的任务上，开启自动思考模式下的模型得分提升高达20分左右。

Auto Think的技术原理

最小提示干预：通过一个添加省略号的Ellipsis Prompt，激活模型随机切换思考模式的能力。这种提示词结构简单而有效，能引导模型在不同思考模式之间进行切换，为后续的强化学习训练提供了基础。
多阶段强化学习
- 第一阶段：让模型稳定地出现快慢两种思考模式。其中“快思考”用于解决简单问题，复杂问题则使用“慢思考”。这一阶段的目标是使模型能根据问题的难度初步判断并选择相应的思考模式。
- 第二阶段：对快慢思考行为进行优化，提高两种模式下正确回答的能力。通过这一阶段的训练，模型在不同思考模式下都能更准确地处理问题，提升其整体性能。
- 第三阶段：对快慢思考的思维链输出进行精炼。经过这个阶段的训练后，模型不再随机地决定是否深入思考，能根据问题难度自主选择思考模式，实现更高效、更精准的推理过程。