单位:哈工大 & 清华大学
论文:https://arxiv.org/abs/2403.05438
代码:https://github.com/YBYBZhang/VideoElevator
主页:https://videoelevator.github.io/
论文提出了一个名为VideoElevator的方法,旨在解决现有文本到视频(Text-to-Video, T2V)扩散模型在生成视频质量、帧质量和文本对齐方面相较于文本到图像(Text-to-Image, T2I)扩散模型存在的差距。具体来说,它试图解决以下问题:
相关研究主要集中在文本到图像(T2I)和文本到视频(T2V)扩散模型领域,这些研究为VideoElevator提供了理论基础和技术背景。以下是一些关键的相关研究:
基础文生图模型:例如Stable Diffusion (SD) 和 Stable Diffusion XL (SDXL),它们通过大规模的训练数据集生成高质量的图像。
个性化文生图模型:例如DreamBooth 和 LoRA,它们允许用户在小规模数据集上微调预训练模型,以生成符合个性化需求的图像。
文生视频模型:包括VDM、Image-Video、LaVie、ZeroScope、VideoLDM 和 AnimateDiff 等,这些模型通过不同方式结合文本和视频数据来生成视频。
视频编辑和生成:例如Make-A-Video 和 I2VGen-XL,它们通过图像编辑技术来生成连贯的视频内容。
论文通过提出VideoElevator方法来解决现有文本到视频(T2V)扩散模型在视频质量、帧质量和文本对齐方面的问题。VideoElevator的核心思想是将视频生成的采样步骤明确地分解为两个部分:时间运动细化(Temporal Motion Refining)和空间质量提升(Spatial Quality Elevating)。以下是具体的解决步骤:
时间运动细化:
使用低通频率滤波器(Low-Pass Frequency Filter, LPFF)来减少视频潜在表示中的高频闪烁,从而提高时间一致性。
应用基于T2V的SDEdit技术来生成具有自然运动的视频潜在表示。
通过确定性逆向过程将视频潜在表示转换为T2I所需的噪声潜在表示,以保持运动的完整性。
空间质量提升:
扩展T2I的自注意力机制,使其能够在时间轴上进行跨帧注意力,以实现外观一致性。
利用扩展后的T2I直接将噪声潜在表示转换为更高质量的潜在表示,从而在每个时间步添加更多真实感细节。
即插即用和无需训练:
VideoElevator设计为无需训练,可以直接与各种T2V和T2I模型配合使用,只要它们的干净潜在分布是共享的(即使用相同的自编码器)。
支持个性化T2I:
VideoElevator不仅能够与基础T2I模型配合使用,还能够利用个性化的T2I模型来生成具有特定风格和细节的视频。
通过这些方法,VideoElevator能够有效地提升T2V模型的性能,使其生成的视频在质量、一致性和风格上更接近T2I模型生成的图像。
AIGC交流群: