Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token，与文本token共享同一词汇空间，让大型语言模型（LLM）无需修改结构实现视觉生成与理解。

新闻资讯 2026-05-07 PPISO

2 0

文章摘要

Liquid是什么

Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token，与文本token共享同一词汇空间，让大型语言模型（LLM）无需修改结构实现视觉生成与理解。Liquid摒弃传统外部视觉模块，用LLM的语义理解能力进行多模态任务，显著降低训练成本（相比从头训练节省100倍），在视觉生成和理解任务中表现出色，超越部分扩散模型。Liquid揭示了多模态任务的尺度规律，证明随着模型规模增大，视觉与语言任务的冲突逐渐消失，且两者能相互促进。

Liquid的主要功能

视觉生成：根据文本描述生成高质量的图像，支持多种分辨率和风格。
视觉理解：处理图像相关的任务，如视觉问答（VQA）和图像描述生成。
多模态融合：将视觉和语言任务无缝结合，支持同时处理文本生成、图像生成和视觉理解任务。
高效扩展：基于现有的大型语言模型（LLM），用少量数据和低成本训练，快速扩展多模态能力。
语言能力保留：在增加视觉生成能力的同时，保持强大的语言生成和理解能力，适用于多模态混合任务。

Liquid的技术原理

图像分词器（Image Tokenizer）：VQGAN（Vector Quantized Generative Adversarial Network）将图像编码为离散的视觉token。视觉token与文本token共享同一词汇表空间，让图像和文本用统一的方式处理。
统一的特征空间：视觉token和文本token在同一个特征空间中学习，基于“下一token预测”任务进行训练。支持模型在视觉和语言任务之间无缝切换和优化。
基于LLM的生成：Liquid扩展现有的大型语言模型（LLM），基于强大的语义理解能力进行视觉生成和理解。在LLM中添加视觉token的嵌入，处理视觉任务，无需额外的视觉模块（如CLIP或扩散模型）。
多模态数据训练：用混合数据（文本数据、图文对数据）进行预训练，模型同时学习语言和视觉任务。基于调整数据比例，优化模型在不同任务上的表现。
双向促进机制：视觉生成和视觉理解任务共享统一的token空间，优化目标一致，两者能相互促进。增加视觉生成或理解任务的数据，提升模型在另一任务上的表现。