Sa2VA – 字节跳动等机构开源的多模态大语言模型

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。

新闻资讯 2026-05-05 PPISO
2 0

文章摘要

Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒度理解。Sa2VA基于统一的任务表示,将图像或视频指代分割、视觉对话、视觉提示理解等任务整合到一个框架中,用LLM生成的空间-时间提示指导SAM2生成精确分割掩码。

特别声明

本文内容由 PPISO 编辑整理发布,仅作为工具选择、资料整理与效率实践参考。涉及第三方网站功能、价格和服务条款时,请以对应官方网站信息为准。

原文链接:http://ainav.ppiso.com/xwzx/3129.html

本文标签

这篇文章暂未设置标签。

相关阅读

暂无相关阅读。

评论交流

暂无评论,欢迎留下你的看法。