Answers:
根据Tibshirani(《 COX模型中的变量选择的LASSO方法》,《医学统计》,第16卷,第385-395页(1997年)),他确实撰写了有关正则化方法的书,您应该对假人进行标准化。但是,您将失去系数的直接可解释性。如果不这样做,您的变量就不会处于公平竞争的境地。您实际上是在扩大规模,以支持您的连续变量(最有可能)。因此,如果您的主要目标是模型选择,那么这是一个巨大的错误。但是,如果您对解释更感兴趣,那么这也许不是最好的主意。
该建议在第394页:
套索方法需要对回归变量进行初始标准化,因此惩罚方案对所有回归变量都是公平的。对于分类回归变量,可以使用伪变量对回归变量进行编码,然后对伪变量进行标准化。但是,正如裁判所指出的那样,此方案中连续变量和分类变量之间的相对缩放比例可能是任意的。
同样值得一看的是安德鲁·盖尔曼(Andrew Gelman)的博客文章,何时标准化回归输入,何时不使用回归输入。这部分特别相关:
为了比较模型中不同预测变量的系数,标准化得到了认可。(尽管我不对二进制输入进行标准化。我将它们编码为0/1,然后通过除以两个标准差对所有其他数字输入进行标准化,从而使它们与0/1变量的比例大致相同。)