您的当前位置:首页正文

哈工大&清华提出VideoElevator:大幅提升文生视频质量!

2024-11-28 来源:个人技术集锦

大家好,今天和大家分享哈工大和清华大学最新的成果 VideoElevator,一种无需训练即插即用,可以配合各种文生图(SD)和文生视频(AnimateDiff)使用提升视频生成质量。

标题:VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

单位:哈工大 & 清华大学

论文:https://arxiv.org/abs/2403.05438

代码:https://github.com/YBYBZhang/VideoElevator

主页:https://videoelevator.github.io/

1、解决的问题

论文提出了一个名为VideoElevator的方法,旨在解决现有文本到视频(Text-to-Video, T2V)扩散模型在生成视频质量、帧质量和文本对齐方面相较于文本到图像(Text-to-Image, T2I)扩散模型存在的差距。具体来说,它试图解决以下问题:

2、相关研究

相关研究主要集中在文本到图像(T2I)和文本到视频(T2V)扩散模型领域,这些研究为VideoElevator提供了理论基础和技术背景。以下是一些关键的相关研究:

  1. 基础文生图模型:例如Stable Diffusion (SD) 和 Stable Diffusion XL (SDXL),它们通过大规模的训练数据集生成高质量的图像。

  2. 个性化文生图模型:例如DreamBooth 和 LoRA,它们允许用户在小规模数据集上微调预训练模型,以生成符合个性化需求的图像。

  3. 文生视频模型:包括VDM、Image-Video、LaVie、ZeroScope、VideoLDM 和 AnimateDiff 等,这些模型通过不同方式结合文本和视频数据来生成视频。

  4. 视频编辑和生成:例如Make-A-Video 和 I2VGen-XL,它们通过图像编辑技术来生成连贯的视频内容。

3、解决思路

论文通过提出VideoElevator方法来解决现有文本到视频(T2V)扩散模型在视频质量、帧质量和文本对齐方面的问题。VideoElevator的核心思想是将视频生成的采样步骤明确地分解为两个部分:时间运动细化(Temporal Motion Refining)和空间质量提升(Spatial Quality Elevating)。以下是具体的解决步骤:

  1. 时间运动细化:

  • 使用低通频率滤波器(Low-Pass Frequency Filter, LPFF)来减少视频潜在表示中的高频闪烁,从而提高时间一致性。

  • 应用基于T2V的SDEdit技术来生成具有自然运动的视频潜在表示。

  • 通过确定性逆向过程将视频潜在表示转换为T2I所需的噪声潜在表示,以保持运动的完整性。

空间质量提升:

  • 扩展T2I的自注意力机制,使其能够在时间轴上进行跨帧注意力,以实现外观一致性。

  • 利用扩展后的T2I直接将噪声潜在表示转换为更高质量的潜在表示,从而在每个时间步添加更多真实感细节。

  1. 即插即用和无需训练:

  • VideoElevator设计为无需训练,可以直接与各种T2V和T2I模型配合使用,只要它们的干净潜在分布是共享的(即使用相同的自编码器)。

支持个性化T2I:

  • VideoElevator不仅能够与基础T2I模型配合使用,还能够利用个性化的T2I模型来生成具有特定风格和细节的视频。

通过这些方法,VideoElevator能够有效地提升T2V模型的性能,使其生成的视频在质量、一致性和风格上更接近T2I模型生成的图像。

4、效果展示

AIGC交流群:

推荐

显示全文