正则化

foresta.yang2023-10-102024-04-27

正则化

0 范数：向量中非零元素的个数
1 范数: 向量中各个元素绝对值之和。
2 范数: 向量中各个元素平方和的 1/2 次方，L2 范数又称 Euclidean 范数或者 Frobenius 范数
p 范数: 为 x 向量各个元素绝对值 p 次方和的 1/p 次方

L1 和 L2 正则先验分别服从什么分布？L1 是拉普拉斯分布，L2 是高斯分布。

为什么 L1 和 L2 正则化可以防止过拟合？

拟合过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，即抗扰动能力强。
L1 & L2 正则化会使模型偏好于更小的权值。更小的权值意味着更低的模型复杂度；**添加 L1 & L2 正则化相当于为模型添加了某种先验，**限制了参数的分布，从而降低了模型的复杂度。
模型的复杂度降低，意味着模型对于噪声与异常点的抗干扰性的能力增强，从而提高模型的泛化能力。直观来说，就是对训练数据的拟合刚刚好，不会过分拟合训练数据（比如异常点，噪声）

L1 与 L2 的相同点

都可以限制模型的学习能力，即通过限制参数的规模，使模型偏好于权值较小的目标函数，防止过拟合。

L1 与 L2 的不同点

L1 正则化可以产生更稀疏的权值矩阵，可以用于特征选择，同时一定程度上防止过拟合；L2 正则化主要用于防止模型过拟合;
L1 正则化适用于特征之间有关联的情况；L2 正则化适用于特征之间没有关联的情况;

L1 能使得权值稀疏

使用 0范数来正则化参数，也可以使大部分参数为0，实现稀疏，但是 0范数的优化求解特性不如 1 范数好，所以通常用 1 范数来实现稀疏。

L1 相对于 L2 更能实现权值稀疏，是由他们本身的计算方式决定的，L1 是各元素绝对值之和，L2 是各元素平方和的根，在对不同参数进行惩罚时，L1 无论参数大小如何，对它们的惩罚值都相同，导致那些参数大小和惩罚值相等的参数，一减就变为0，而 L2 对参数的惩罚值是根据参数本身的大小来变化的，越小的参数惩罚值越小，越大的参数惩罚值越大，所以最终使得所有参数都接近 0，但不会等于 0。