Tarsier2 – 字节跳动推出的视觉理解大模型

新闻资讯 2026-05-14 PPISO

2 0

文章摘要

Tarsier2是什么

Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的视频描述，在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升，将预训练数据从1100万扩展到4000万视频文本对，丰富了数据量和多样性；在监督微调阶段执行精细的时间对齐；基于模型采样自动构建偏好数据，应用直接偏好优化（DPO）训练。在DREAM-1K基准测试中，Tarsier2-7B的F1分数比GPT-4o高出2.8%，比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中取得了新的最佳结果，涵盖视频问答、视频定位、幻觉测试和具身问答等任务。

Tarsier2的主要功能

详细视频描述：Tarsier2能生成高质量的视频描述，覆盖视频中的各种细节，包括动作、场景和情节。
视频问答：能回答关于视频的具体问题，展现出强大的时空理解和推理能力。
视频定位：Tarsier2可以检测并定位视频中特定事件的发生时间，支持多视频段的定位。
幻觉测试：通过优化训练策略，Tarsier2显著减少了模型生成虚假信息的可能性。
多语言支持：支持多种语言的视频描述生成，进一步拓展了其应用场景。

Tarsier2的技术原理

大规模预训练数据：Tarsier2将预训练数据从1100万扩展到4000万视频-文本对，提升了数据的规模和多样性。数据包括来自互联网的短视频、电影或电视剧的解说视频，通过多模态LLM自动生成的视频描述和问答对。
细粒度时间对齐的监督微调（SFT）：在监督微调阶段，Tarsier2引入了15万条细粒度标注的视频描述数据，每条描述都对应具体的时间戳。时间对齐的训练方式显著提高了模型在视频描述任务中的准确性和细节捕捉能力，同时减少了生成幻觉。
直接偏好优化（DPO）：Tarsier2通过模型采样自动构建偏好数据，应用直接偏好优化（DPO）进行训练。基于模型生成的正负样本对，进一步优化模型的生成质量，确保生成的视频描述更符合人类的偏好。

Tarsier2的项目地址

GitHub仓库：https://github.com/bytedance/tarsier
arXiv技术论文：https://arxiv.org/pdf/2501.07888

Tarsier2的应用场景

视频描述：Tarsier2 能生成高质量的详细视频描述，涵盖视频中的各种细节，包括动作、场景和情节。
幻觉测试：Tarsier2 在减少生成幻觉方面表现出色。通过直接偏好优化（DPO）和细粒度时间对齐的训练，Tarsier2 显著降低了生成虚假信息的可能性。
多语言支持：Tarsier2 支持多语言的视频描述生成，能满足不同语言环境下的需求。
具身问答：Tarsier2 在具身问答（Embodied QA）任务中也表现出色，能结合视觉和语言信息，为具身智能体提供准确的指导。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/3318.html

本文标签

这篇文章暂未设置标签。

上一篇Heyboss – Heeyo 推出的 AI 编程工具下一篇ShipAny – 专为快速构建AI SaaS项目的Next.js模板

评论交流

暂无评论，欢迎留下你的看法。