何时以及如何在线性回归中使用标准化的解释变量


37

我有2个关于线性回归的简单问题:

  1. 建议什么时候标准化解释变量?
  2. 使用标准化值进行估算后,如何预测新值(如何标准化新值)?

一些参考会有所帮助。


3
如果您的软件编写正确,它将自动在内部进行标准化,以避免数值精度问题。您不必做任何特别的事情。

1
请注意,以下线程是相关的,并且会引起人们的兴趣:什么时候应该对数据进行居中和何时标准化?
gung-恢复莫妮卡

Answers:


26

尽管术语是一个有争议的话题,但我更喜欢将“解释性”变量称为“预测变量”。

何时将预测变量标准化:

  • 许多用于执行多元线性回归的软件会提供标准化系数,这些系数等同于非标准化系数,您可以在其中手动标准化预测变量和响应变量(当然,听起来您只是在谈论标准化预测变量)。
  • 我认为标准化是使回归方程更有意义的有用工具。在变量的度量标准对解释回归方程的人缺乏意义的情况下(例如,任意度量标准上的心理尺度),情况尤其如此。它也可以用来促进预测变量相对重要性的可比性(尽管还存在其他更复杂的方法来评估相对重要性;请参阅我的文章进行讨论)。如果度量标准确实对解释回归方程的人有意义,那么非标准化系数通常会提供更多信息。
  • 我还认为,依靠标准化变量可能会引起人们的关注,因为我们没有考虑过如何使变量的度量标准对读者更有意义。

  • 安德鲁·盖尔曼(Andrew Gelman)在这个话题上有很多话要说。例如,参见他关于标准化的页面,尤其是Gelman(2008,Stats Med,免费PDF)

基于标准化的预测:

  • 我不会使用标准化的回归系数进行预测。
  • 如果您知道原始样本中预测变量的均值和标准偏差,则可以始终将标准化系数转换为非标准化系数。

3
+1,但是为什么不使用非标准化回归系数进行预测呢?
一站式

1
(+1)关于评估变量的重要性,我认为relaimpo R软件包做得很好(但请参阅《现代回归方法入门》)。David V. Budescu还发表了一篇出色的论文,介绍了优势分析(可根据要求免费提供)。
chl

@onestep哎呀。错字。现在改变了。
Jeromy Anglim

1
@Jeromy,您能否详细说明为什么不使用标准化回归系数进行预测?
Michael Bishop

3
@MichaelBishop我正在考虑使用回归模型并将其应用于样本数据预测的环境。通常,您需要非标准化的预测。同样,均值和标准差会随样本的不同而变化。因此,使用非标准化的预测变量应该会得出更有意义的结果。
Jeromy Anglim

-4

让我用一个简短的答案作答,它可能与之前写的出色答案重叠。

  1. 始终保持标准化,这使您可以更好地解释回归,尤其是回归系数。

  2. 对于不是标准化的新数据,我建议您存储要用于标准化的每个变量的值(例如最大值和最小值),然后进行与之前在孔数据集中所做的相同的转换,仅用于此目的单实例。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.