机器学习-白板推导系列笔记（十二）-变分推断（VI）

阅读量：317 次

发布时间：2019-03-04

本文共 15833 字，大约阅读时间需要 52 分钟。

此文章主要是结合哔站shuhuai008大佬的白板推导视频：

全部笔记的汇总贴：

一、背景

对于概率模型

从频率派角度来看就会是一个优化问题
从贝叶斯角度来看就会是一个积分问题

从贝叶斯来看

$p(\hat{x}|x)=\int _{\theta }p(\hat{x},\theta |x)\mathrm{d}_\theta \\=\int _{\theta }p(\hat{x}|\theta ,x)p(\theta |x)\mathrm{d}_\theta \\ \overset{}{=}\int _{\theta }p(\hat{x}|\theta)p(\theta |x)\mathrm{d}_\theta \\=E_{\theta |x}[p(\hat{x}|\theta )]$

Inference分为：

精确推断
近似推断（确定性近似—VI；随机近似—MCMC、MH、Gibbs）

优化问题分为：

回归 model： $f(w)=w^Tx$

loss-function：无约束
$L(w)=\sum^{N}_{i=1}||w^Tx_i-y_i||^2$
$\hat{w}=\arg\min L(w)$
解法：
1.解析解：求导令为 $0$ ，得 $w^*=(X^TX)^{-1}X^TY$
2.数值解：GD、SGD

SVM（分类）

$f(w)=sign(w^Tx+b)$
loss-function：有约束
$\min\frac{1}{2}w^Tw$
$\ y_i(w^Tx_i+b)\geq 1,i=1,2,\cdots,N$
connex优化对偶

$\hat{\theta}=\arg\max\log p(x|\theta)$
$\theta^{(t+1)}=\underset{\theta}{\argmax\int p(x,z|\theta)\cdot p(z|x,\theta^{(t)}){d}z}$

二、公式

Data：

$x$ :observed variable $\rightarrow X:\left \{x_{i}\right \}_{i=1}^{N}$
$z$ :latent variable + parameter $\rightarrow Z:\left \{z_{i}\right \}_{i=1}^{N}$
$(X, Z)$ :complete data

引入分布 $q (z)$ ：

$log\; p(x)=log\; p(x,z)-log\; p(z|x)=log\; \frac{p(x,z)}{q(z)}-log\; \frac{p(z|x)}{q(z)}$

式子两边同时对 $q (z)$ 求积分：

左边 $=\int _{z}q(z)\cdot log\; p(x |\theta )\mathrm{d}z=log\; p(x|\theta )\int _{z}q(z )\mathrm{d}z=log\; p(x|\theta )$
右边 $=\underset{ELBO(Evidence\; Lower\; Bound)}{\underbrace{\int _{z}q(z)log\; \frac{p(x,z|\theta )}{q(z)}\mathrm{d}z}}\underset{KL(q(z)||p(z|x,\theta ))}{\underbrace{-\int _{z}q(z)log\; \frac{p(z|x,\theta )}{q(z)}\mathrm{d}z}}\\ =\underset{变分}{\underbrace{L(q)}} + \underset{\geq 0}{\underbrace{KL(q||p)}}$

当 $q$ 与 $p$ 相等时， $K L (q ∣ ∣ p)$ 等于 $0$ ，此时 $K L (q ∣ ∣ p)$ 取值最小，所以这时就是要使 $L (q)$ 越大越好：

$\tilde{q}(z)=\underset{q(z)}{argmax}\; L(q)\Rightarrow \tilde{q}(z)\approx p(z|x)$

我们对 $q (z$ )做以下假设，将多维变量的不同维度分为 $M$ 组，组与组之间而且是相互独立的，所以：

$q(z)=\prod_{i=1}^{M}q_{i}(z_{i})$

此时我们固定 $q_{i}(z_{i}),i\neq j$ 来求 $q_{j}(z_{j})$ ，所以：

$L(q)=\underset{①}{\underbrace{\int _{z}q(z)log\; p(x,z)\mathrm{d}z}}-\underset{②}{\underbrace{\int _{z}q(z)log\; q(z)\mathrm{d}z}}$

对于 $①$ ：

$①=\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})log\; p(x,z)\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{M}\\ =\int _{z_{j}}q_{j}(z_{j})\underset{\int _{z-z_{j}}log\; p(x,z)\prod_{i\neq j}^{M}q_{i}(z_{i})\mathrm{d}z_{i}}{\underbrace{\left (\int _{z-z_{j}}\prod_{i\neq j}^{M}q_{i}(z_{i})log\; p(x,z)\underset{(i\neq j)}{\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{M}}\right )}}\mathrm{d}z_{j}\\ =\int _{z_{j}}q_{j}(z_{j})\cdot E_{\prod_{i\neq j}^{M}q_{i}(z_{i})}[log\; p(x,z)]\cdot \mathrm{d}z_{j}\\ =\int _{z_{j}}q_{j}(z_{j})\cdot log\; \hat{p}(x,z_{j})\cdot \mathrm{d}z_{j}$

对于 $②$ ：

$②=\int _{z}q(z)log\; q(z)\mathrm{d}z\\ =\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})\sum_{i=1}^{M}log\; q_{i}(z_{i})\mathrm{d}z\\ =\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})[log\; q_{1}(z_{1})+log\; q_{2}(z_{2})+\cdots +log\; q_{M}(z_{M})]\mathrm{d}z$

其中

$\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})log\; q_{1}(z_{1})\mathrm{d}z\\ =\int _{z_{1}z_{2}\cdots z_{M}}q_{1}(z_{1})q_{2}(z_{2})\cdots q_{M}(z_{M})\cdot log\; q_{1}(z_{1})\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{M}\\ =\int _{z_{1}}q_{1}(z_{1})log\; q_{1}(z_{1})\mathrm{d}z_{1}\cdot \underset{=1}{\underbrace{\int _{z_{2}}q_{2}(z_{2})\mathrm{d}z_{2}}}\cdot \underset{=1}{\underbrace{\int _{z_{3}}q_{3}(z_{3})\mathrm{d}z_{3}}}\cdots \underset{=1}{\underbrace{\int _{z_{M}}q_{M}(z_{M})\mathrm{d}z_{M}}}\\ =\int _{z_{1}}q_{1}(z_{1})log\; q_{1}(z_{1})\mathrm{d}z_{1}$

也就是说

$\int _{z}\prod_{i=1}^{M}q_{i}(z_{i})log\; q_{k}(z_{k})\mathrm{d}z=\int _{z_{k}}q_{k}(z_{k})log\; q_{k}(z_{k})\mathrm{d}z_{k}$

则

$②=\sum_{i=1}^{M}\int _{z_{i}}q_{i}(z_{i})log\; q_{i}(z_{i})\mathrm{d}z_{i}\\ =\int _{z_{j}}q_{j}(z_{j})log\; q_{j}(z_{j})\mathrm{d}z_{j}+C$

$①-②\;$ ：

$①-②=\int _{z_{j}}q_{j}(z_{j})\cdot log\frac{\hat{p}(x,z_{j})}{q_{j}(z_{j})}\mathrm{d}z_{j}+C\\ \int _{z_{j}}q_{j}(z_{j})\cdot log\frac{\hat{p}(x,z_{j})}{q_{j}(z_{j})}\mathrm{d}z_{j}=-KL(q_{j}(z_{j})||\hat{p}(x,z_{j}))\leq 0$

当 $q_{j}(z_{j})=\hat{p}(x,z_{j})$ 才能得到最⼤值。

三、联系EM算法

在广义EM算法中，我们需要首先固定 $\theta$ ，然后求与 $p$ 最接近的 $q$ ，这里就可以使用变分推断的方法：

$log\; p_{\theta }(x)=\underset{L(q)}{\underbrace{ELBO}}+\underset{\geq 0}{\underbrace{KL(q||p)}}\geq L(q)$

目标函数：

$\hat{q}=\underset{q}{argmin}\; KL(q||p)=\underset{q}{argmax}\; L(q)$

$log\; q_{j}(z_{j})=E_{\prod_{i\neq j}^{m}q_{i}(z_{i})}[log\; p_{\theta }(x,z)]\\ =\int _{z_{1}}\int _{z_{2}}\cdots \int _{z_{j-1}}\int _{z_{j+1}}\cdots \int _{z_{m}}q_{1}q_{2}\cdots q_{j-1}q_{j+1}\cdots q_{m}\cdot log\; p_{\theta }(x,z)\mathrm{d}z_{1}\mathrm{d}z_{2}\cdots \mathrm{d}z_{j-1}\mathrm{d}z_{j+1}\cdots \mathrm{d}z_{m}$

$log\; \hat{q}_{1}(z_{1})=\int _{z_{2}}\cdots \int _{z_{m}}q_{2}\cdots q_{m}\cdot log\; p_{\theta }(x,z)\mathrm{d}z_{2}\cdots \mathrm{d}z_{m}\\ log\; \hat{q}_{2}(z_{2})=\int _{z_{1}}\int _{z_{3}}\cdots \int _{z_{m}}\hat{q}_{1}q_{3}\cdots q_{m}\cdot log\; p_{\theta }(x,z)\mathrm{d}z_{1}\mathrm{d}z_{3}\cdots \mathrm{d}z_{m}\\ \vdots \\ log\; \hat{q}_{m}(z_{m})=\int _{z_{1}}\cdots \int _{z_{m-1}}\hat{q}_{1}\cdots \hat{q}_{m-1}\cdot log\; p_{\theta }(x,z)\mathrm{d}z_{1}\cdots \mathrm{d}z_{m-1}$

方法：坐标上升

$ELBO=E_{q_{(z)}}[\log\frac{p_\theta(x^{(i)},z)}{q_{(z)}}]\\=E_{q_{(z)}}[\log{p_\theta(x^{(i)},z)}]+H[{q_{(z)}}]\\ KL(q||p)=\int q(z)\cdot \log\frac{q(z)}{p_\theta(z|x^{(i)})}{d}z$

四、随机梯度变分推断（SGVI）

（一）直接求导

优化⽅法除了坐标上升，还有梯度上升的⽅式。
假定 $q(Z)=q_{\phi }(Z)$ ，是和 $\phi$ 这个参数相连的概率分布。于是

$\underset{q(Z)}{argmax}\; L(q)=\underset{\phi }{argmax}\; L(\phi )$

其中

$L(\phi )=E_{q_{\phi }}[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]$

这里的 $x$ 表示的是样本

$\nabla_{\phi }L(\phi )=\nabla_{\phi }E_{q_{\phi }}[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\\ =\nabla_{\phi }\int q_{\phi }(z)[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ =\underset{①}{\underbrace{\int \nabla_{\phi }q_{\phi }(z)\cdot [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z}}+\underset{②}{\underbrace{\int q_{\phi }(z)\nabla_{\phi }[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z}}$

其中

$②=\int q_{\phi }(z)\nabla_{\phi }[\underset{与\phi 无关}{\underbrace{log\; p_{\theta }(x,z)}}-log\; q_{\phi }(z)]\mathrm{d}z\\ =-\int q_{\phi }(z)\nabla_{\phi }log\; q_{\phi }(z)\mathrm{d}z\\ =-\int q_{\phi }(z)\frac{1}{q_{\phi }(z)}\nabla_{\phi }q_{\phi }(z)\mathrm{d}z\\ =-\int \nabla_{\phi }q_{\phi }(z)\mathrm{d}z\\ =-\nabla_{\phi }\int q_{\phi }(z)\mathrm{d}z\\ =-\nabla_{\phi }1\\ =0$

因此

$\nabla_{\phi }L(\phi )=①\\ =\int {\color{Red}{\nabla_{\phi }q_{\phi }(z)}}\cdot [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ =\int {\color{Red}{q_{\phi }(z)\nabla_{\phi }log\; q_{\phi }(z)}}\cdot [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ =E_{q_{\phi }}[(\nabla_{\phi }log\; q_{\phi }(z))(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))]$

这个期望可以通过蒙特卡洛采样来近似，从⽽得到梯度，然后利⽤梯度上升的⽅法来得到参数：

$z^{l}\sim q_{\phi }(z)\\ E_{q_{\phi }}[(\nabla_{\phi }log\; q_{\phi }(z))(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))]\sim \frac{1}{L}\sum_{i=1}^{L}(\nabla_{\phi }log\; q_{\phi }(z))(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))$

由于存在对数项，当趋近于 $0$ 时，微小的改变会导致很大的误差，所以采用重参数化技巧（Reparameterization Tick）。

（二）重参数化技巧

取 $z=g_{\phi }(\varepsilon ,x),\varepsilon \sim p(\varepsilon )$ ，对于 $z\sim q_{\phi }(z|x)$ ，可以得到 $\left | q_{\phi }(z|x)\mathrm{d}z \right |=\left | p(\varepsilon )\mathrm{d}\varepsilon \right |$ 。代入上式：

$\nabla_{\phi }L(\phi )=\nabla_{\phi }E_{q_{\phi }}[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\\ =\nabla_{\phi }\int q_{\phi }(z)[log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\mathrm{d}z\\ =\nabla_{\phi }\int [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]q_{\phi }(z)\mathrm{d}z\\ =\nabla_{\phi }\int [log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]p(\varepsilon )\mathrm{d}\varepsilon \\ =\nabla_{\phi }E_{p(\varepsilon )}(log\; p_{\theta }(x,z)-log\; q_{\phi }(z)]\\ =E_{p(\varepsilon )}[\nabla_{\phi }(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))]\\ =E_{p(\varepsilon )}[\nabla_{z}(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))\nabla_{\phi }z]\\ =E_{p(\varepsilon )}[\nabla_{z}(log\; p_{\theta }(x,z)-log\; q_{\phi }(z))\nabla_{\phi }g_{\phi }(\varepsilon ,x)]$