Vidi2 – 字节跳动推出的多模态视频理解与生成模型

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索（TR）方面达到了行业领先水平，在时空定位（STG）和视频问答（Video QA）方面取得了显著进展。Vidi2能根据文本查询，不仅识别出视频中对应的时间戳，能标记出目标对象的边界框。

新闻资讯 2026-05-11 PPISO

2 0

文章摘要

Vidi2是什么

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索（TR）方面达到了行业领先水平，在时空定位（STG）和视频问答（Video QA）方面取得了显著进展。Vidi2能根据文本查询，不仅识别出视频中对应的时间戳，能标记出目标对象的边界框。Vidi2引入了新的基准测试VUE-STG和VUE-TR-V2，以更好地评估STG能力。在实际应用中，Vidi2支持如智能剪辑、智能分镜、智能字幕等功能，帮助创作者更高效地进行视频创作。

Vidi2的主要功能

视频理解与检索：能处理数小时长的视频素材，根据文本查询快速定位到视频中相关的时间段，支持复杂场景下的长视频理解。
时空定位（STG）：不仅能识别视频中的时间戳，还能在这些时间段内标记出目标对象的边界框，实现精准的时空定位。
视频问答（Video QA）：支持视频问答任务，能基于视频内容回答用户的问题，提供更全面的多模态推理能力。
智能创作工具：支持自动剪辑、智能分镜、智能字幕等多种功能，帮助创作者将长视频素材快速转化为适合TikTok等平台的短视频。
多视角切换与智能重构图：支持自动多视角切换和智能、构图感知的重新框选与裁剪，提升视频的视觉效果。

Vidi2的技术原理

多模态融合：Vidi2将视觉编码器（用于处理视频帧和片段）与大型语言模型相结合，通过指令微调和对齐，形成一体化的长视频理解与表达能力。
时空定位（STG）：Vidi2通过时空定位技术，能根据文本查询在视频中精确定位到相关的时间戳和目标对象的边界框。基于多模态特征提取和相似度计算，通过深度学习模型（如Transformer）处理视频的时空信息。
视频理解与检索：Vidi2利用多模态文本-视频检索技术，将文本和视频数据转换为向量表示，再通过相似度计算（如余弦相似度）实现文本到视频的检索。通过特征提取和深度学习技术，对视频内容进行结构化分析，实现高效的视频检索。
多粒度时序建模：Vidi2采用多粒度时序建模技术，能处理从单帧到长视频片段的不同时间尺度信息，结合记忆与检索机制（如滑窗+记忆token/检索增强），实现对长视频的高效理解和检索。
跨模态对齐：Vidi2通过跨模态对齐技术，将视频中的视觉信息、音频信息和文本信息进行有效对齐，从而实现更全面的视频内容理解。

Vidi2的项目地址

项目官网：https://bytedance.github.io/vidi-website/
Github仓库：https://github.com/bytedance/vidi
arXiv技术论文：https://arxiv.org/pdf/2511.19529

Vidi2的应用场景

智能视频剪辑：自动从长视频中提取精彩片段，生成适合短视频平台的内容，提高创作效率。
视频问答：基于视频内容回答用户问题，增强用户与视频内容的交互体验。
时空定位辅助编辑：通过精准定位视频中的时间和对象，辅助创作者进行复杂编辑任务，如多视角切换和智能重构图。
自动字幕生成：为视频自动生成字幕，提升视频的可访问性和用户体验。
内容创作辅助：帮助创作者将简单提示或主题转化为完整的视频脚本，包括标题、钩子和分镜。

特别声明

本文内容由 PPISO 编辑整理发布，仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时，请以对应官方网站信息为准。

原文链接：http://ainav.ppiso.com/xwzx/822.html

本文标签

这篇文章暂未设置标签。

上一篇传声港 – 龙投文化推出的AI综合媒体服务平台下一篇Temvideo.ai – AI视频制作Agent，专为跨境电商营销设计

评论交流

暂无评论，欢迎留下你的看法。