QwenLong-L1-32B – 阿里Qwen-Doc开源的长文本推理模型

QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队开源的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升在长文本场景下的推理能力。模型在多个长文本文档问答（DocQA）基准测试中表现优异，平均准确率达到了70.7%，超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型，且与Claude-3.7-Sonnet-Thinking相当。

新闻资讯 2026-05-25 PPISO

2 0

文章摘要

QwenLong-L1-32B是什么

QwenLong-L1-32B的主要功能

长文本推理：处理复杂的长文本任务，如多跳推理、逻辑推理和数学推理。
稳定训练：基于课程引导的强化学习和难度感知的回顾性采样，确保训练过程稳定。
混合奖励：结合基于规则和基于模型的奖励，平衡精确性和召回率。
广泛适用性：适用于多种实际应用场景，如法律文档分析、财务报告解读、科研论文阅读等。
高性能表现：在多个长文本文档问答（DocQA）基准测试中，表现优于现有的旗舰模型，如OpenAI-o3-mini和Qwen3-235B-A22B。

QwenLong-L1-32B的技术原理

渐进式上下文扩展：将训练过程分为多个阶段，逐步增加上下文长度，确保模型在每个阶段都能稳定适应更长的上下文。根据样本的难度进行采样，优先处理复杂的样本，激励模型进行更深入的探索。
混合奖励机制：基于严格匹配最终答案和格式验证，确保模型输出的精确性。用一个小型的语言模型作为评估器，判断生成答案与标准答案的语义等价性，提高模型的召回率。
强化学习算法：基于组相对优势估计来优化策略，避免使用额外的价值网络，降低计算复杂度。结合高剪切阈值、动态采样策略、逐标记损失和过长奖励塑形，确保更稳定和高效的RL过程。
预训练和微调：用预训练的短文本推理模型（如R1-Distill-Qwen-14B和R1-Distill-Qwen-32B）作为基础模型。在RL训练之前，基于高质量的标注数据进行监督微调，为模型提供稳健的初始策略。