Aligner – 北大推出的残差修正模型对齐技术

Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。采用自回归的 seq2seq 模型，在问题-答案-修正后的答案（Query-Answer-Correction, Q-A-C）数据集上训练，无需依赖复杂的强化学习从人类反馈（RLHF）流程。

新闻资讯 2026-05-08 PPISO

2 0

文章摘要

Aligner是什么

Aligner是北京大学团队提出的大语言模型对齐技术，通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。采用自回归的 seq2seq 模型，在问题-答案-修正后的答案（Query-Answer-Correction, Q-A-C）数据集上训练，无需依赖复杂的强化学习从人类反馈（RLHF）流程。 Aligner 的核心优势在于高效性和灵活性。作为即插即用的模块，可以直接应用于各种开源和基于 API 的模型，无需访问模型参数。

Aligner的主要功能

修正残差学习：Aligner 作为自回归的 seq2seq 模型，在问题-答案-修正后的答案（Query-Answer-Correction, Q-A-C）数据集上训练，学习对齐与未对齐答案之间的差异，实现了更精准的模型对齐。
弱到强泛化：使用小参数量的 Aligner 模型对大参数量的 LLMs 进行微调，可以显著提升强模型的性能。
即插即用：Aligner 能对齐如 GPT3.5、GPT4 和 Claude2 等无法获取参数的模型。
训练过程：
- 数据收集：从各种开源数据集中获取问题（Query），生成原始答案。
- 答案修正：使用 GPT-4、Llama2-70B-Chat 和人工标注来修正原始答案，符合人类价值观。
- 模型训练：基于修正后的数据集，训练 Aligner 模型，能将原始答案修正为对齐的答案。