VitaBench – 美团推出的大模型Agent评测基准

VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工具的交互式评测环境，设计了跨场景综合任务，从深度推理、工具使用与用户交互三大维度衡量智能体表现。

新闻资讯 2026-05-01 PPISO

2 0

文章摘要

VitaBench是什么

VitaBench 是美团 LongCat 团队发布的面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建了包含66个工具的交互式评测环境，设计了跨场景综合任务，从深度推理、工具使用与用户交互三大维度衡量智能体表现。首次量化拆解智能体任务，构建大规模真实环境数据库，引入真实用户模拟器，通过原子化评估准则（Rubric）实现细粒度行为覆盖。

VitaBench的主要功能

构建复杂任务评测环境：以外卖点餐、餐厅就餐、旅游出行等高频生活场景为载体，构建包含66个工具的交互式评测环境，设计跨场景综合任务，模拟真实场景下的复杂需求。
量化任务复杂性维度：从深度推理、工具使用与用户交互三大维度量化任务复杂性，通过观测空间大小、部分可观测度、推理点数量等指标衡量推理复杂度；以单场景任务和跨场景任务区分工具复杂度；引入真实用户模拟器衡量交互复杂度。
实现细粒度评估：借鉴最新研究，将任务目标拆解为一组原子化评估准则（Rubric），通过带重叠的滑动窗口扫描完整对话轨迹，以严格的「全有或全无」标准判断任务完成与否，实现更全面、细粒度的行为覆盖。
提供开源资源：VitaBench 已全面开源，包括项目主页、论文链接、代码仓库和数据集等，为研究者和开发者提供了丰富的资源，推动智能体在真实生活场景中的研发与落地。

VitaBench的技术原理

多维度复杂性构建：通过深度推理、工具使用与用户交互三大维度构建复杂任务，模拟真实生活场景中的任务复杂性。
真实环境数据库：构建大规模真实环境数据库，为智能体提供部分可观测的环境，以衡量其在复杂环境中的推理能力。
用户模拟器：引入真实用户模拟器，模拟不同用户的行为和偏好，使智能体能在多轮对话中适应多样化的用户行为。
原子化评估准则：将任务目标拆解为一组原子化评估准则（Rubric），通过滑动窗口扫描对话轨迹，实现对智能体行为的细粒度评估。
跨场景任务设计：设计跨场景综合任务，考察智能体在多场景间的切换执行与信息整合能力，评估其在真实生活场景中的综合表现。

VitaBench的项目地址

项目官网：https://vitabench.github.io
Github仓库：https://github.com/meituan-longcat/vitabench
arXiv技术论文：https://arxiv.org/abs/2509.26490
HuggingFace数据集：https://huggingface.co/datasets/meituan-longcat/VitaBench

VitaBench的应用场景

外卖点餐：模拟用户在点外卖时的复杂需求，如根据个人偏好、预算和时间限制选择餐厅和菜品，评估智能体在多轮对话中理解用户需求、推荐合适选项并完成订单的能力。
餐厅就餐：涵盖从查找餐厅、预订座位到点菜、结账等全流程，考察智能体在复杂场景下的推理和工具使用能力，如根据用户需求推荐合适餐厅、处理预订和菜单查询等任务。
旅游出行：涉及旅行规划、交通预订、景点推荐等多个环节，评估智能体在跨场景任务中的综合表现，如整合不同工具和信息资源，为用户提供个性化旅行方案。
智能体研发与评估：为研究者和开发者提供标准化的评测基准，帮助评估和优化智能体在复杂任务中的表现，推动智能体技术的发展和应用。
人机交互研究：通过真实用户模拟器和多轮对话任务，研究智能体与用户之间的交互模式，提升智能体在自然语言理解和对话管理方面的能力。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/1010.html

本文标签

这篇文章暂未设置标签。

上一篇代体 – AI语音输入法工具，自动文本纠正下一篇cto.new – 免费的AI编程平台，自动代码规划与生成

评论交流

暂无评论，欢迎留下你的看法。