BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题，覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件，例如找出特定的足球比赛或电视剧角色等。

新闻资讯 2026-05-01 PPISO

2 0

BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

文章摘要

BrowseComp是什么

BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题，覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件，例如找出特定的足球比赛或电视剧角色等。在测试中，OpenAI 的 GPT-4o 和 GPT-4.5 准确率极低，最新发布的 Agent 模型 Deep Research 准确率高达 51.5%，显示出在自主搜索、信息整合和准确性校准方面的优势。

BrowseComp的主要功能

复杂信息检索能力评估：BrowseComp 包含 1266 个极具挑战性的问题，覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。这些问题需要 AI 代理在庞大的互联网空间中进行深度搜索，将潜在答案与问题中提出的复杂约束条件相匹配。
问题设计严格把控难度：为了确保问题的高难度，数据师们通过三个主要检查点来严格把控：验证现有的模型（如 OpenAI 的 GPT-4o、GPT-4.5 和早期版本的 Deep Research）无法解决这些问题；进行五次简单的谷歌搜索，保证答案不会出现在搜索结果的第一页上；确保这些问题足够困难，以至于另一个数据师在十分钟内无法解决。
答案验证的可靠性：尽管问题难度高，但答案是简短且明确的，易于通过参考答案进行验证。这种设计使基准测试既具有挑战性，又不失公平性。
推动 AI 浏览代理技术发展：BrowseComp 的开源为 AI 浏览代理的研究提供了新的工具和方向，推动了更智能、更可靠的浏览代理的发展。

BrowseComp的技术原理

复杂问题设计：BrowseComp 包含 1266 个极具挑战性的问题，这些问题需要 AI 代理在互联网上进行多步推理和跨多个网站的信息检索。问题的设计目标是模拟现实世界中复杂的信息检索场景，要求 AI 代理能够处理难以获取且相互关联的信息。
多源信息整合：AI 代理需要访问多个网站，整合不同来源的信息，才能找到问题的答案。例如，一个典型的问题可能需要代理访问体育赛事记录、裁判信息等多个网站，才能得出正确答案。
推理与搜索策略：除了简单的信息检索，AI 代理还需要具备强大的推理能力，能根据检索到的信息进行逻辑分析和综合处理。例如，Deep Research 模型在 BrowseComp 中表现优异，因为能自主调整搜索策略，根据检索结果动态优化搜索路径。
动态适应性：AI 代理需要具备动态适应性，能根据搜索过程中遇到的各种信息，快速做出反应并调整搜索策略。适应性使代理能在复杂的网络环境中更有效地找到目标信息。
计算资源的影响：测试结果表明，增加计算资源可以显著提升 AI 代理在复杂网络浏览任务中的表现。更多的计算资源允许代理尝试更多的搜索路径，提高找到正确答案的概率。

BrowseComp的模型性能

GPT-4o 和 GPT-4.5：两个模型在 BrowseComp 上的表现较差，准确率分别为 0.6% 和 0.9%。即使为 GPT-4o 启用浏览功能后，准确率也仅从 0.6% 提升到 1.9%。表明单纯赋予模型浏览能力，不能有效解决 BrowseComp 中的复杂问题。
OpenAI o1 模型：不具备浏览能力，但凭借较强的推理能力，准确率达到了 9.9%。说明推理能力在网络浏览任务中同样重要，即使无法直接从网络中检索信息，模型也可以通过对已有知识的深度推理来找到部分问题的答案。
Deep Research 模型：是 OpenAI 最新发布的 Agent 模型，在 BrowseComp 测试中表现最为出色，准确率高达 51.5%。模型能高效使用浏览工具，能对检索到的信息进行深度分析和综合处理。Deep Research 模型具备强大的适应性，能根据搜索过程中获取的各种信息迅速做出反应并调整搜索策略。