用面板/纵向数据对回归数据进行标准化是否是一种好习惯?


16

通常,为了标准化比较系数,我在回归中对独立变量进行了标准化(这样,它们具有相同的单位:标准偏差)。但是,对于面板/纵向数据,我不确定如何标准化我的数据,特别是如果我估计一个层次模型。

要了解为什么这可能是一个潜在问题,请假设您有i=1,,n个沿着t=1,,T周期测量的个体并且测量了因变量yi,t和一个自变量xi,t。如果运行完整的池回归,则可以通过以下方式标准化数据:x.z=(xmean(x))/sd(x),因为它不会更改t统计量。另一方面,如果您适合一个非池化回归,即每个个体的一个回归,那么您应该仅按个体而不是整个数据集(在R代码中)对数据进行标准化:

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

但是,如果您将简单的层次模型拟合为具有不同个体截距的模型,那么您将使用收缩估计量,即,您正在估计池回归和非池回归之间的模型。我应该如何标准化我的数据?像汇总回归一样使用整个数据?只使用个人,例如在不公开的情况下?

Answers:


10

在普通回归或纵向模型中,我看不到标准化是个好主意。通常,它使预测更难获得,并且不能解决需要解决的问题。以及如果模型中有x 2怎么办。您如何标准化x 2?如果模型中有连续变量和二进制变量怎么办?您如何标准化二进制变量?当然不是因为它的标准偏差,这将导致较低的患病率变量具有更大的重要性。xx2x2

通常,最好以的原始比例来解释模型效果。x


@Frank Harrell-有关与您所概述的条件相关的问题的好点,但是如果一个变量具有所有不同比例的连续变量,那么标准化不是比较斜率的唯一方法吗?
DQdlM 2011年

1
@Frank,我想这取决于您正在运行的模型类型,但是预测变量的标准化通常很有用。将它们居中意味着随着平均预测结果的出现,截距变得可解释,并且不同预测变量的相对重要性变得更加明显。我通常不考虑二进制预测变量,但有时其他缩放选项值得考虑。最后,在某些情况下,预测变量的标准偏差会大不相同,这可能会导致计算/收敛问题。
迈克尔·毕晓普

2
我不清楚这种标准化如何增加清晰度而不是减少清晰度。此外,平均值不用于定心显而易见的选择(中值?模式?第43百分位数?分散措施的选择是更成问题)相对重要性可以以许多方式,例如,部分可以判断,部分χ 2,四分位数间距范围的协变量效应,...在使用现代矩阵数学例程(例如R在引擎盖下使用的例程)时,我还没有发现标准化在计算上会有所帮助。肯尼指出,标准化不是比较坡度的方法。R2χ2
弗兰克·哈雷尔

1
如果您有二进制变量,请不要标准化它们,而只能是连续的变量。请参阅Gelman的这篇文章(< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >,建议将变量除以两个标准差。在任何情况下,如果要拟合贝叶斯模型,都有助于达到收敛。
Manoel Galdino

xx2

0

标准化还有另一种方法,可以将以不同比例尺测量的变量带到同一度量标准。它被称为最大比例比例(POMS),并且随着z转换的发展,它不会与多元分布混乱。

Todd Little在其关于纵向结构方程建模的书中明确建议POMS优于z标准化。在处理纵向数据时,Z转换会带来其他问题,请参见此处:https : //www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.