我已经了解了在进行诸如Lasso
回归之类的操作之前标准化变量的三个主要原因:
1)系数的可解释性。
2)能够根据收缩后系数估计值的相对大小对系数重要性进行排名。
3)无需拦截。
但是我想知道最重要的一点。我们是否有理由认为标准化会改善模型的样本外推广?而且我不在乎我是否不需要模型中的拦截器。加一个不会伤害我。
1
澄清:您似乎想问:“提供标准化是可选的(特殊情况之一,即结果不会因不同的幅度而发生偏差),那么标准化会改善样本外的推广吗?” 它是否正确?
—
Drew75
@ Drew75我更喜欢按情况细分,例如,当结果“以不同的幅度偏斜”时有帮助,当结果没有偏斜时有帮助,等等,最佳答案将涵盖不同的情况。
—
Jase
然后,您的问题与套索无关(因为在套索之前必须进行一般的标准化)。更一般。也许更改标题和问题的第一句话。
—
Drew75
@Drew:那真是个问题的开始:为什么有必要(什么时候不?)?歪曲结果是什么意思(与什么相比)?我认为这个问题很好。
—
Scortchi-恢复莫妮卡
@ Drew75我的问题是关于套索的。
—
杰瑟