正则化

正则化

  • 0 范数:向量中非零元素的个数
  • 1 范数: 向量中各个元素绝对值之和。
  • 2 范数: 向量中各个元素平方和的 1/2 次方,L2 范数又称 Euclidean 范数或者 Frobenius 范数
  • p 范数: 为 x 向量各个元素绝对值 p 次方和的 1/p 次方

L1 和 L2 正则先验分别服从什么分布?L1 是拉普拉斯分布,L2 是高斯分布。

为什么 L1 和 L2 正则化可以防止过拟合?

  • 拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,即抗扰动能力强。
  • L1 & L2 正则化会使模型偏好于更小的权值。更小的权值意味着更低的模型复杂度;**添加 L1 & L2 正则化相当于为模型添加了某种先验,**限制了参数的分布,从而降低了模型的复杂度。
  • 模型的复杂度降低,意味着模型对于噪声与异常点的抗干扰性的能力增强,从而提高模型的泛化能力。直观来说,就是对训练数据的拟合刚刚好,不会过分拟合训练数据(比如异常点,噪声)

L1 与 L2 的相同点

都可以限制模型的学习能力,即通过限制参数的规模,使模型偏好于权值较小的目标函数,防止过拟合。

L1 与 L2 的不同点

  • L1 正则化可以产生更稀疏的权值矩阵,可以用于特征选择,同时一定程度上防止过拟合;L2 正则化主要用于防止模型过拟合;
  • L1 正则化适用于特征之间有关联的情况;L2 正则化适用于特征之间没有关联的情况;

L1 能使得权值稀疏

使用 0范数来正则化参数,也可以使大部分参数为0,实现稀疏,但是 0范数的优化求解特性不如 1 范数好,所以通常用 1 范数来实现稀疏。

L1 相对于 L2 更能实现权值稀疏,是由他们本身的计算方式决定的,L1 是各元素绝对值之和,L2 是各元素平方和的根,在对不同参数进行惩罚时,L1 无论参数大小如何,对它们的惩罚值都相同,导致那些参数大小和惩罚值相等的参数,一减就变为0,而 L2 对参数的惩罚值是根据参数本身的大小来变化的,越小的参数惩罚值越小,越大的参数惩罚值越大,所以最终使得所有参数都接近 0,但不会等于 0。