当前位置: 首页 > news >正文

[PaperReading] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

目录
  • Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
  • TL; DR;
  • Data
    • Stage I: Image Pretraining
    • Stage II: Curating a Video Pretraining Dataset
    • Stage III: High-Quality Finetuning
  • Method
  • Experiment
  • 总结与思考
  • 相关链接
  • Related works中值得深挖的工作

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

link
时间:2023年11月
单位:Stability AI
相关领域:计算机视觉、视频生成、扩散模型
被引次数:300+
项目主页
https://stability.ai/news/stable-video-diffusion-open-ai-video-model
https://huggingface.co/stabilityai/stable-video-diffusion-img2vid

TL; DR;

Stable Video Diffusion (SVD)是一个基于潜在扩散模型的文生视觉与图生视频框架,训练分为三阶段:text-to-image pretraining, video pretraining, and high-quality video finetuning。效果上与闭源的文生视频效果接近。实验证明SVD具有很好的运动表征及相机运动能力,同时该模型隐含了较强的3D先验,能够用来finetune多视频diffusion模型。

Data

Stage I: Image Pretraining

image
整理出LVD(Large Video Dataset)数据集, 580M组(视频clip,描述文本)样本对,制作关键步骤如下:

  • 收集一些长视频
  • 使用cut-detection pipeline工具将长视频切成小视频片段
  • 使用V-BLIP算法获取小视频片段的文本描述
  • 使用CoCa算法获取小视频片段中间帧的文本描述
  • 使用LLM将上述两种文本描述进行总结
  • 计算视频的平均光流将静态小视频片段进行过滤

image

Stage II: Curating a Video Pretraining Dataset

Stage II 的目标是通过系统化的数据筛选流程,将原始大规模视频数据集(LVD,含580M样本)优化为高质量预训练数据集(LVD-F,152M样本),以提升视频生成模型的性能。关键点包括:

  • 数据质量​​:过滤静态场景、低美学价值或文本干扰的样本。
  • 运动表征​​:确保视频包含有效运动,避免静态帧主导训练。
  • 标注多样性​​:通过多模态合成标注增强文本-视频对齐。

Stage III: High-Quality Finetuning

使用250K pre-captioned video clips of high visual fidelity来Finetune上个阶段的模型。

Method

由于本文重在讲解数据构造,算法架构复用前人工作:

​​(1) Stage I: Image Pretraining​​
​​核心架构​​:SD 2.1的UNet + VAE(Latent Diffusion)。
​​推荐论文​​:
High-Resolution Image Synthesis with Latent Diffusion Models (Rombach et al.)
重点阅读:Section 3(Architecture)和Figure 2(UNet示意图)。

​​(2) Stage II: Video Pretraining​​
​​核心架构​​:SD 2.1 + ​​时序层插入​​(3D卷积/注意力)。
​​推荐论文​​:
Align Your Latents (Blattmann et al.),引用量1345
重点阅读:Section 3(Temporal Layer Design)和Figure 3(架构对比)。
Video Diffusion Models (Ho et al.),引用量2070
重点阅读:Section 4(Temporal Adaptation)。

​​(3) Stage III: High-Quality Finetuning​​
​​核心架构​​:基于Stage II模型 + ​​分辨率提升​​(576×1024)。
​​推荐论文​​:
Imagen Video (Ho et al.),引用量1733
重点阅读:Section 4.2(Cascaded Diffusion for HQ Finetuning)。
SDXL: Improving Latent Diffusion Models (Podell et al.),引用量2894
重点阅读:Section 3.2(High-Resolution Training Strategies)。

Experiment

使用Stage1的Image Stable Diffusion进行预训练,该阶段对于最终效果影响还是比较明显,参考下图Figure 3a。
image

在UCF-101 zero-shot text-to-video generation超过之前方法。
image

SVD-MV (在多目数据上Finetune后的版本)生成的多视角图片的效果
image

总结与思考

相关链接

https://zhuanlan.zhihu.com/p/699035548

Align Your Latents (Blattmann et al.),引用量1345
Video Diffusion Models (Ho et al.),引用量2070
Imagen Video (Ho et al.),引用量1733
SDXL: Improving Latent Diffusion Models (Podell et al.),引用量2894

http://www.vanclimg.com/news/829.html

相关文章:

  • Wireshark入门指南:网络流量分析利器
  • 2025/7/28 总结
  • 7.27 周总结
  • 存贮电解液配方的二进制格式与解析它的010 Editor的模板
  • 读《大道至简——软件工程实践者的思想》有感
  • 垃圾话1
  • 春训#1题解
  • js第一天
  • java学习(大道至简读后感)
  • linux中常用的数值计算
  • 【问题】--Macbook相关问题
  • 软工作业day27
  • 2025.7.28 闲话:CF678E Another Sith Tournament 倒序状压 DP 的一点想法
  • 7.28随笔
  • 外培总结
  • CodeBuddy IDE小试-单元测试篇
  • 7.28总结
  • 枚举算法
  • Linux基本命令和Vim基本操作
  • 带外安全更新深度解析:ATL漏洞与IE防御措施
  • 更多脚本详见csdn
  • Golang基础笔记十五之sync
  • 2025总结
  • 记一个由tinyint类型引发的低级错误
  • 2025最新程序员面试题集合 包括各大厂面试规范,面试问题
  • 浅谈基环树
  • Day 28
  • 2025.7.28
  • 叔向贺贫
  • nest基础学习流程图