DeepSearchQA – 谷歌开源的AI研究Agent测试基准

DeepSearchQA是谷歌开源的新基准测试工具，用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务，每一步都依赖于先前分析。

新闻资讯 2026-05-02 PPISO

2 0

文章摘要

DeepSearchQA是什么

DeepSearchQA是谷歌开源的新基准测试工具，用于评估Agent在网络研究任务中的全面性和多步查询能力。工具包含17个领域共900个手工设计的“因果链”任务，每一步都依赖于先前分析。与传统测试不同，DeepSearchQA能衡量Agent生成详尽答案集的能力，评估研究准确性和检索召回率。DeepSearchQA能衡量“思考时长”效率，帮助开发者优化Agent性能，推动复杂任务处理技术的发展。

DeepSearchQA的主要功能

多领域任务设计：工具包含17个领域共900个手工设计的“因果链”任务，涵盖复杂场景，要求Agent逐步推理和查询。
全面性衡量：与传统基于事实的测试不同，DeepSearchQA要求Agent生成详尽的答案集，能评估研究的准确性和评估检索的召回率。
诊断“思考时长”：作为衡量工具，评估Agent在执行更多搜索和推理步骤时的性能提升，帮助优化其推理效率。
推动研究发展：为开发者提供标准化的测试基准，助力开发更强大、更智能的Agent，适用于复杂任务处理。

DeepSearchQA的技术原理

因果链任务设计：每个任务都设计为多步因果关系，每一步都依赖于前一步的结果，模拟现实世界中复杂的网络研究场景。
多步强化学习：Agent通过多步强化学习进行搜索和推理，能在复杂的信息环境中自主导航，逐步优化查询策略。
迭代式查询：Agent采用迭代式查询方式，先提出问题、读取结果，识别知识空白后再进行下一步搜索，逐步完善答案。

DeepSearchQA的项目地址

项目官网：https://blog.google/technology/developers/deep-research-agent-gemini-api/
开源地址：https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
技术论文：https://storage.googleapis.com/deepmind-media/DeepSearchQA/DeepSearchQA_benchmark_paper.pdf