岭回归(Ridge Regression)是回归方法 的一种,属于统计方法。在机器学习中也称作权重衰减。也有人称之为Tikhonov正则化。

岭回归主要解决的问题是两种:一是当预测变量的数量超过观测变量的数量的时候(预测变量相当于特征,观测变量相当于标签),二是数据集之间具有多重共线性,即预测变量之间具有相关性。

一般的,回归分析的(矩阵)形式如下:

​​其中,x是预测变量,y是观测变量,β​j​​和β​0​​是待求的参数。而β​0​​可以理解成偏差(Bias)。

一般情况下,使用最小二乘法求解上述回归问题的目标是最小化如下的式子:

这里的1,⋯,N是训练集中的样本。

那么,岭回归就是要在上述最小化目标中加上一个惩罚项

这里的λ也是待求参数。也就是说,岭回归是带二范数惩罚的最小二乘回归。岭回归的这种估计目标叫做收缩估计器(shrinkage estimator)。

传统的回归分析我们需要使用t检验来确定预测变量是否显著,如果不显著则剔除该预测变量,然后继续回归,如此往复得到最终结果。而岭回归不需要这样,只要它的系数β能向0“收缩”即可减小该变量对最终的影响。

查看原文 >>
相关文章