【机器学习】 7. 梯度下降法,随机梯度下降法SGD,Mini-batch SGD

2024-11-05 来源：个人技术集锦

梯度下降法

凸函数：最小二乘，岭回归，逻辑回归…

更新规则：
$w_{i+1} = w_i - α_i\frac{df}{dw}(w_i)$
-dw : 斜率的负数，决定更新的方向
如果 -dw > 0 则往左走
如果 -dw < 0 则往右走
α ：步长

公式推导：
Loss :
$f(x) = ||wx - y||^2_2$
求导：
$\frac{df}{dw}(w) = 2||wx-y||_2$
梯度更新：
$w_{i+1} = w_i - α||wx -y||$

$α_i = \frac{α}{n\sqrt{i}}$

α : 常量
n : 训练集数量
i : iteration 迭代次数
随着迭代次数增加，步长越来越小。

$w_{i+1} = w_i - α_i\sum^n_{j=1}(w^T_ix^{(j)} - y^{(j)})x^{(j)}$
空间复杂度： O(nk)

随机样本计算梯度，如果全部样本都计算梯度，计算量过大
$w_{i+1} = w_i - α_i(w^T_ix^{(j)} - y^{(j)})x^{(j)}$
空间复杂度： O(k) 【取消了sum】
$w_{i+1} = w_i + α_i▼f_j(w_i)$

j 表示随机抽取的样本

$w_{i+1} = w_i - α_i\sum^n_{j∈B}(w^T_ix^{(j)} - y^{(j)})x^{(j)}$

只计算最小batch的梯度更新

显示全文