次梯度算法的收斂性
次梯度算法:
梯度下降法的迭代格式為$$x_{k+1}=x_k-\alpha_k\nabla f(x_k)$$
但是對(duì)于不可微的凸函數(shù),梯度并不存在,于是使用此梯度算法:
$$x_{k+1}=x_k-\alpha_k g_k)$$其中$g_k\in \partial f(x_k)$
次梯度算法的收斂性證明:
假設(shè):$f$是凸函數(shù)且存在最小值點(diǎn)$f^*$,且是$G-$利普西茨連續(xù)的,即$$\vert f(x)-f(y)\vert\leq G\Vert x-y\Vert ,\forall x,y\in \mathbb{R}^n$$
引理:在前提假設(shè)下,$f$的次梯度一致有界,即$$\exists M>0,s.t.\Vert g \Vert<M.\forall g \in \partial f(x),\forall x\in \mathbb{R}^n $$
收斂性:$$2\left(\sum_{i=0}^k \alpha_i\right)\left( {\mathop{f}^{-}}_k\right)\leq \Vert x_0-x^*\Vert + \sum_{i=0}^k \alpha_i^2 G^2 $$
其中${\mathop{f}\limits^{-}}_k=\mathop{min}\limits_{0\leq i\leq k} f_i$
proof:
\begin{align*}
\Vert x_{i+1}-x^*\Vert^2&=\Vert x_i-\alpha_ig_i-x^*\Vert\\
&=\Vert x_i-x^*\Vert^2-2\alpha_i\left< g_i, x_i-x^* \right> +\alpha_i+\Vert g_i \Vert^2\\
&\leq \Vert x_i-x^*\Vert^2-2\alpha_i\left( f_i-f^* \right) +\alpha_i G^2
\end{align*}
于是得到$$2\alpha_i\left( f_i-f^* \right)\leq \Vert x_i-x^*\Vert^2-\Vert x_{i+1}-x^*\Vert^2+\alpha_i^2 G^2$$
分別令$i=0,1,\dots,k$再累加得到
$$2\sum_{i=0}^k\alpha_i\left( f_i-f^* \right)\leq\Vert x_0-x^*\Vert^2+G^2\sum_{i=0}^k\alpha_i^2 $$
于是進(jìn)一步得到:
$$2\left( \sum_{i=0}^k\alpha_i\right) \left( {\mathop{f}\limits^{-}}_i-f^* \right)\leq\Vert x_0-x^*\Vert^2+G^2\sum_{i=0}^k\alpha_i^2 $$
如果取$\alpha_i=\frac{1}{i}$,易得算法收斂。
本文來(lái)自博客園,作者:來(lái)者可追2019,轉(zhuǎn)載請(qǐng)注明原文鏈接:http://www.rzrgm.cn/wjma2719/p/18162398

浙公網(wǎng)安備 33010602011771號(hào)