发布网友
共2个回答
懂视网
l1和l2正则化的区别是:
1、L1是模型各个参数的绝对值之和。L2是模型各个参数的平方和的开方值。
2、L1会趋向于产生少量的特征,而其他的特征都是0,因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0 ,产生稀疏权重矩阵。L2会选择更多的特征,这些特征都会接近于0。
3、最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0。当最小化||w||时,就会使每一项趋近于0。
热心网友
L1,L2正则都可以看成是 条件*,即
∥w∥≤c
∥w∥2≤c
当w为2维向量时,可以看到,它们限定的取值范围如下图:
所以它们对模型的限定不同
而对于一般问题来说,L1 正则往往取到正方形的顶点,即会有很多分量为0,具有稀疏性,有特征选择的作用