论文:Denoising Diffusion Implicit Models
链接:https://arxiv.org/abs/2010.02502
DDIM只是一个采样的算法,其训练和DDPM是一样的。
DDIM在推导采样公式时,没有用DDPM中q(xt|xt-1)的条件;
同时把一个高斯噪声可以换成随机高斯噪声和预测的噪声的加权和,其中 σ k \sigma_k σk是一个超参数,控制二者的权重
采样公式如下:从任意步数k推出步数s:
x
s
=
α
ˉ
s
x
^
0
∣
k
+
1
−
α
‾
s
−
σ
k
2
ϵ
θ
+
σ
k
ϵ
\mathbf{x}_{s}=\sqrt{\bar\alpha_s} \hat {\mathbf{x}}_{0\mid k}+ \sqrt{1-\overline{\alpha}_{s}-\sigma_{k}^{2}} \boldsymbol{\epsilon} _{\theta}+{\sigma_{k} \boldsymbol{\epsilon} }
xs=αˉsx^0∣k+1−αs−σk2ϵθ+σkϵ
其中:
x
^
0
∣
k
=
1
α
ˉ
k
(
x
k
−
1
−
α
ˉ
k
z
~
)
\hat {\mathbf{x}}_{0\mid k}=\frac{1}{\sqrt{\bar\alpha_{k}}}(\mathbf{x}_{k}-\sqrt{1-\bar\alpha_{k}}\tilde{\mathbf{z}})
x^0∣k=αˉk1(xk−1−αˉkz~)
上次在DDPM中,我们是这样开头的:
略。我们考虑了t和t-1之间的关系,所以只能一步一步走。
现在我们这样想:
下式恒成立:
q
(
x
s
∣
x
0
)
=
α
ˉ
s
x
0
+
1
−
α
ˉ
s
ϵ
q(\mathbf{x}_{s}|\mathbf{x}_{0}) =\sqrt{\bar\alpha_s} \mathbf{x}_0+\sqrt{1-\bar\alpha_s} \boldsymbol{\epsilon}
q(xs∣x0)=αˉsx0+1−αˉsϵ
而,其中的x0可以由任何一步k的xk来估出来:
x
0
≈
x
^
0
∣
k
=
1
α
ˉ
k
(
x
k
−
1
−
α
ˉ
k
z
~
)
\mathbf{x}_{0} \approx \hat {\mathbf{x}}_{0\mid k}=\frac{1}{\sqrt{\bar\alpha_{k}}}(\mathbf{x}_{k}-\sqrt{1-\bar\alpha_{k}}\tilde{\mathbf{z}})
x0≈x^0∣k=αˉk1(xk−1−αˉkz~)
带进来,同时他这个噪声
ϵ
\boldsymbol{\epsilon}
ϵ只是一个满足高斯分布的噪声就行,那我估出来的噪声
ϵ
θ
\boldsymbol{\epsilon} _{\theta}
ϵθ也满足高斯分布呀。因此可以把这个噪声换成他和我们的加权和,只要保证他们的方差之和等于原来的方差,就还是原来的分布不变:(引入了一个控制权重的参数
σ
k
\sigma_k
σk)
q
(
x
s
∣
x
k
,
x
0
)
=
α
ˉ
s
x
^
0
∣
k
+
1
−
α
ˉ
s
ϵ
=
α
ˉ
s
x
^
0
∣
k
+
1
−
α
‾
s
−
σ
k
2
ϵ
θ
+
σ
k
ϵ
\begin{aligned} &q(\mathbf{x}_{s}|\mathbf{x}_{k},\mathbf{x}_{0})\\ &=\sqrt{\bar\alpha_s} \hat {\mathbf{x}}_{0\mid k}+\sqrt{1-\bar\alpha_s} \boldsymbol{\epsilon} \\ &=\sqrt{\bar\alpha_s} \hat {\mathbf{x}}_{0\mid k}+ \sqrt{1-\overline{\alpha}_{s}-\sigma_{k}^{2}} \boldsymbol{\epsilon} _{\theta}+{\sigma_{k} \boldsymbol{\epsilon} } \end{aligned}
q(xs∣xk,x0)=αˉsx^0∣k+1−αˉsϵ=αˉsx^0∣k+1−αs−σk2ϵθ+σkϵ
这得到了DDIM的采样公式:
x
s
=
α
ˉ
s
x
^
0
∣
k
+
1
−
α
‾
s
−
σ
k
2
ϵ
θ
+
σ
k
ϵ
\mathbf{x}_{s}=\sqrt{\bar\alpha_s} \hat {\mathbf{x}}_{0\mid k}+ \sqrt{1-\overline{\alpha}_{s}-\sigma_{k}^{2}} \boldsymbol{\epsilon} _{\theta}+{\sigma_{k} \boldsymbol{\epsilon} }
xs=αˉsx^0∣k+1−αs−σk2ϵθ+σkϵ
也就是说,采样的时候不一定要一步一步,可以从任意k采样s。
顺序是红黄绿蓝靛紫。
我们一步步看,等号后面这三项分别是,
咱们控制predicted 噪声和随机噪声权重的参数σt(越大,随机噪声越多),在DDIM的论文中有结果图.