DeepSeek-GRM – DeepSeek 联合清华推出的通用奖励模型

新闻资讯 2026-05-05 PPISO

2 0

文章摘要

DeepSeek-GRM是什么

DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型（Generalist Reward Modeling）。通过点式生成式奖励建模（Pointwise Generative Reward Modeling, GRM）和自我原则点评调优（Self-Principled Critique Tuning, SPCT）等技术，显著提升了奖励模型的质量和推理时的可扩展性。GRM通过生成结构化的评价文本（包括评价原则和对回答的详细分析）来输出奖励分数，不是直接输出单一的标量值。DeepSeek-GRM在多个综合奖励模型基准测试中表现优异，显著优于现有方法和多个公开模型。推理时扩展性能尤为突出，随着采样次数增加，性能持续提升。

DeepSeek-GRM的主要功能

智能问答与对话：能快速回答各类问题，涵盖科学知识、历史文化、生活常识、技术问题等。DeepSeek可以与用户进行智能对话，理解用户的意图和情感，给出相应的回答。
内容生成：可以生成多种类型的内容，包括新闻报道、学术论文、商业文案、小说故事等。
数据分析与可视化：能处理Excel表格、CSV文件等数据，进行数据清洗、统计分析，并生成可视化图表。
推理与逻辑能力：在数学、逻辑推理等方面表现出色，能够进行多步骤的推理和思考，解决复杂的推理任务。
API集成：提供API接口，方便开发者将其集成到自己的应用中，实现更广泛的应用场景。

DeepSeek-GRM的技术原理

点式生成式奖励建模（GRM）：通过生成结构化的评价文本（包括评价原则和对回答的详细分析）来输出奖励分数，不是直接输出单一的标量值。提高了输入的灵活性，为推理时扩展提供了潜力。
自我原则点评调优（SPCT）：通过拒绝式微调和基于规则的在线强化学习两个阶段，训练 GRM 模型自适应生成高质量的评价原则和准确的点评内容。
元奖励模型（Meta RM）：用于评估 GRM 生成的评价原则和点评的质量，筛选出高质量的样本进行投票，进一步提升推理时的扩展性能。
多Token预测（MTP）：支持模型在一次前向传播中预测多个词元，提升了训练效率和推理速度。
相对策略优化（Group Relative Policy Optimization）：通过比较同一任务上不同推理路径的相对优劣来优化模型的策略。
混合专家架构（MoE）：通过动态选择专家网络，减少不必要的计算量，提升模型处理复杂任务的速度和灵活性。
FP8混合精度训练：在训练时使用更合适的数据精度，减少计算量，节省时间和成本。