用面板/纵向数据对回归数据进行标准化是否是一种好习惯？

16

通常，为了标准化比较系数，我在回归中对独立变量进行了标准化（这样，它们具有相同的单位：标准偏差）。但是，对于面板/纵向数据，我不确定如何标准化我的数据，特别是如果我估计一个层次模型。

要了解为什么这可能是一个潜在问题，请假设您有 $i = 1, \ldots, n$ 个沿着 $t=1,\ldots, T$ 周期测量的个体并且测量了因变量 $y_{i,t}$ 和一个自变量 $x_{i,t}$ 。如果运行完整的池回归，则可以通过以下方式标准化数据： $x.z = (x- \text{mean}(x))/\text{sd}(x)$ ，因为它不会更改t统计量。另一方面，如果您适合一个非池化回归，即每个个体的一个回归，那么您应该仅按个体而不是整个数据集（在R代码中）对数据进行标准化：

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

但是，如果您将简单的层次模型拟合为具有不同个体截距的模型，那么您将使用收缩估计量，即，您正在估计池回归和非池回归之间的模型。我应该如何标准化我的数据？像汇总回归一样使用整个数据？只使用个人，例如在不公开的情况下？

r regression standardization

— 玛诺·加尔迪诺（Manoel Galdino）
source

Answers:

10

在普通回归或纵向模型中，我看不到标准化是个好主意。通常，它使预测更难获得，并且不能解决需要解决的问题。以及如果模型中有和怎么办。您如何标准化？如果模型中有连续变量和二进制变量怎么办？您如何标准化二进制变量？当然不是因为它的标准偏差，这将导致较低的患病率变量具有更大的重要性。 $x$ $x^2$ $x^2$

通常，最好以的原始比例来解释模型效果。 $x$

— 弗兰克·哈雷尔
source

@Frank Harrell-有关与您所概述的条件相关的问题的好点，但是如果一个变量具有所有不同比例的连续变量，那么标准化不是比较斜率的唯一方法吗？

— DQdlM 2011年

1

@Frank，我想这取决于您正在运行的模型类型，但是预测变量的标准化通常很有用。将它们居中意味着随着平均预测结果的出现，截距变得可解释，并且不同预测变量的相对重要性变得更加明显。我通常不考虑二进制预测变量，但有时其他缩放选项值得考虑。最后，在某些情况下，预测变量的标准偏差会大不相同，这可能会导致计算/收敛问题。

— 迈克尔·毕晓普

2

我不清楚这种标准化如何增加清晰度而不是减少清晰度。此外，平均值不用于定心显而易见的选择（中值？模式？第43百分位数？分散措施的选择是更成问题）相对重要性可以以许多方式，例如，部分可以判断

，部分

，四分位数间距范围的协变量效应，...在使用现代矩阵数学例程（例如R在引擎盖下使用的例程）时，我还没有发现标准化在计算上会有所帮助。肯尼指出，标准化不是比较坡度的方法。

R^{2}

$R^2$

χ^{2}

$\chi^2$

— 弗兰克·哈雷尔

1

如果您有二进制变量，请不要标准化它们，而只能是连续的变量。请参阅Gelman的这篇文章（< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >，建议将变量除以两个标准差。在任何情况下，如果要拟合贝叶斯模型，都有助于达到收敛。

— Manoel Galdino

x

$x$

x^{2}

$x^{2}$

0

标准化还有另一种方法，可以将以不同比例尺测量的变量带到同一度量标准。它被称为最大比例比例（POMS），并且随着z转换的发展，它不会与多元分布混乱。

Todd Little在其关于纵向结构方程建模的书中明确建议POMS优于z标准化。在处理纵向数据时，Z转换会带来其他问题，请参见此处：https : //www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

— 用户名
source

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.

Licensed under cc by-sa 3.0 with attribution required.