是否为LASSO重新调整指标/二进制/虚拟预测值


30

对于LASSO(和其他模型选择程序),重新调整预测变量至关重要。我遵循一般 建议 是对连续变量使用0均值,1标准差归一化。但是假人有什么关系呢?

例如,来自同一所(优秀)暑期学校的一些应用示例,我将其连续变量的比例调整为0到1(尽管离群值并不大),可能与假人相当。但是,即使那样也不能保证系数应该在相同的数量级上,并因此受到类似的惩罚,这是重新缩放的主要原因,不是吗?


2
简短答案-不,请勿重新缩放假人
Affine 2013年


@julieth,非常感谢,如果您以后找到了一些答案,请告诉我。
拉兹洛2013年

Answers:


27

根据Tibshirani(《 COX模型中的变量选择的LASSO方法》,《医学统计》,第16卷,第385-395页(1997年)),他确实撰写了有关正则化方法的书,您应该对假人进行标准化。但是,您将失去系数的直接可解释性。如果不这样做,您的变量就不会处于公平竞争的境地。您实际上是在扩大规模,以支持您的连续变量(最有可能)。因此,如果您的主要目标是模型选择,那么这是一个巨大的错误。但是,如果您对解释更感兴趣,那么这也许不是最好的主意。

该建议在第394页:

套索方法需要对回归变量进行初始标准化,因此惩罚方案对所有回归变量都是公平的。对于分类回归变量,可以使用伪变量对回归变量进行编码,然后对伪变量进行标准化。但是,正如裁判所指出的那样,此方案中连续变量和分类变量之间的相对缩放比例可能是任意的。


3
您能否提供准确的参考资料来说明Tibshirani在哪里建议对假人进行标准化。
seanv507

@ seanv507“ ...使用伪变量对回归变量进行编码,然后对伪变量进行标准化 ”。我认为粗鲁的解释是正确的:总的来说,您希望所有预测变量(包括虚拟变量)具有相同的比例和方差,以使处罚公正。
罗伯特·库布里克

1
@RobertKubrick我不同意。进行正则化的根本原因是,小的变化应该产生小的影响。因此,理想的情况是所有变量与因变量之间都具有自然的物理比例,并且不对它们进行归一化。通常,我们不知道正确的规模,因此我们求归一化。但是,分类变量具有这样的自然标度,即它们是0或1的概率:我认为大多数时间为0的变量比在0/1之间翻转的变量重要。相反,杰夫(Jeff)的回答似乎很恰当。
seanv507

8

同样值得一看的是安德鲁·盖尔曼(Andrew Gelman)的博客文章,何时标准化回归输入,何时不使用回归输入。这部分特别相关:

为了比较模型中不同预测变量的系数,标准化得到了认可。(尽管我不对二进制输入进行标准化。我将它们编码为0/1,然后通过除以两个标准差对所有其他数字输入进行标准化,从而使它们与0/1变量的比例大致相同。)


1
当他说“不标准化二进制输入”时,他的意思似乎是任何一组热门变量,即类别变量的虚拟变量?
smci

2
比较系数(解释)位是正确的,但从正则化的角度来看,推荐没有太大意义。原因是二进制变量的方差为p1个-pp=0.50.25

x -> x / 2σ

没关系,似乎所有解释都在这里:stat.columbia.edu/~gelman/research/unpublished/…–
Alex

3

这更多是评论,但时间太长。R's是套索(和朋友)最常用的软件之一glmnet。在帮助页面上,打印者?glmnet

standardize:在拟合模型序列之前,用于x变量标准化的逻辑标志。系数始终以原始比例返回。默认值为“ standardize = TRUE”。如果变量已经使用相同的单位,则可能不希望标准化。请参见下面的详细信息,以使用'family =“ gaussian”'进行y标准化。

X

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.