FireRed-OCR – 小红书开源的文档结构解析视觉语言模型

FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型，以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分，超越 GPT-5.2、Gemini-3.0 Pro 及 Qwen3-VL-235B 等超大模型，实现了"小模型击败大模型"的突破。

新闻资讯 2026-05-21 PPISO

2 0

文章摘要

FireRed-OCR是什么

FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型，以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分，超越 GPT-5.2、Gemini-3.0 Pro 及 Qwen3-VL-235B 等超大模型，实现了”小模型击败大模型”的突破。模型基于 Qwen3-VL-2B-Instruct 架构，采用三阶段渐进式训练策略。FireRed-OCR 专为解决文档解析中的”结构幻觉”问题设计，能精准提取复杂表格、数学公式、层级标题等内容，转换为标准 Markdown 格式。

FireRed-OCR的主要功能

复杂表格提取：从杂乱 PDF 和扫描文档中精准识别并提取表格结构，保持行列对应关系，避免传统 OCR 常见的表格错乱问题。
数学公式解析：准确识别文档中的数学公式，转换为标准 LaTeX 或 Markdown 格式，确保公式语法有效性和可读性。
层级结构还原：智能识别文档中的标题层级（H1-H6）、段落缩进、列表符号等，生成符合规范的 Markdown 层级结构。
多格式文档转换：支持将 PDF、扫描图片、学术论文、财务报告等多种格式文档一键转换为结构化 Markdown 文本。
抗结构幻觉：通过 GRPO 强化学习优化，显著减少内容编造、行序错乱、层级混乱等常见文档解析错误。
多场景适配：适用于财务报告数字化、学术论文解析、合同文档结构化、书籍内容提取等专业场景。
轻量化部署：2B 参数规模，支持本地部署和 API 调用，降低算力成本，适合中小企业和个人开发者使用。

FireRed-OCR的技术原理

基础架构：基于 Qwen3-VL-2B-Instruct 多模态大模型构建，继承其强大的视觉理解和文本生成能力。
三阶段渐进式训练策略：
- 阶段1（多任务预对齐）：同时训练区域检测、区域识别和布局转 Markdown 三个任务，建立模型对文档空间布局的感知能力。
- 阶段2（专项 SFT）：在高质量、标准化的 Markdown 数据集上进行监督微调，确保输出逻辑一致性和层级表达准确性。
- 阶段3（格式约束 GRPO）：应用 Group Relative Policy Optimization 强化学习算法，通过格式奖励机制优化输出质量。
四大奖励机制：
- 公式语法有效性奖励：确保数学公式符合 LaTeX 语法规范。
- 表格完整性奖励：保证表格行列结构完整对应。
- 层级闭合性奖励：验证 Markdown 标题层级标签正确闭合。
- 文本准确性奖励：提升文字识别精度和内容保真度。
结构幻觉抑制：针对文档解析中常见的表格行错乱、公式编造、层级混乱等问题，通过格式约束和强化学习联合优化，显著降低幻觉发生率。
端到端优化：从视觉输入直接生成结构化 Markdown，无需传统 OCR 的多阶段流水线（检测→识别→版面分析→格式化），减少误差累积。

FireRed-OCR的项目地址

Github仓库：https://github.com/FireRedTeam/FireRed-OCR

FireRed-OCR的应用场景

财务报告数字化：精准提取上市公司财报、审计报告中的复杂表格和财务数据，转换为结构化 Markdown，便于财务分析和数据入库。
学术论文解析：识别研究论文中的数学公式、图表标题、参考文献层级，生成标准学术格式文本，助力文献管理和知识提取。
合同文档结构化：将扫描版合同、法律文件转换为可编辑的结构化文本，保留条款层级和关键信息，提升法务文档处理效率。
书籍杂志电子化：处理扫描版书籍、期刊杂志，还原目录层级和正文排版，快速构建可搜索的数字图书馆。
教育资料整理：解析教材、试卷、讲义中的公式和表格内容，转换为适合在线学习的结构化格式，支持教育平台内容建设。
档案数字化：帮助企业和机构将历史纸质档案、手写笔记转换为结构化电子文档，实现档案的永久保存和智能检索。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/424.html

本文标签

这篇文章暂未设置标签。

上一篇Fun-AudioGen-VD – 阿里通义实验室推出的音色设计模型下一篇Fun-CosyVoice3.5 – 阿里通义实验室推出的语音生成模型

评论交流

暂无评论，欢迎留下你的看法。