在创建模型之前,经常对变量进行调整(例如标准化)-这什么时候好,什么时候不好?


56

在哪种情况下,您是否希望在模型拟合之前缩放或标准化变量?缩放变量有哪些优点/缺点?


这里的问题非常相似:stats.stackexchange.com/q/7112/3748还在寻找什么吗?
迈克尔·毕晓普

是的-我想了解一般模型,而不仅仅是线性模型
Andrew

1
有很多可能的模型,以及模型的可能用途。如果您可以使问题更具体,并减少与其他问题的重叠,那更好。
Michael Bishop

除了上面的链接之外,这个问题还很重要:什么时候您应该将您的数据定为中心
gung-恢复莫妮卡

Answers:


37

标准化是关于模型的不同变量的权重。如果仅出于数值稳定性的目的而进行标准化,则可能会有转换产生非常相似的数值属性,但物理意义不同的转换,这些转换可能更适合于解释。居中也是如此,这通常是标准化的一部分。

您可能希望标准化的情况:

  • 变量是不同的物理量
  • 数值的大小比例大不相同
  • 并且没有“外部”知识应将具有高(数字)变化的变量视为更重要。

您可能不想标准化的情况:

  • 如果变量是相同的物理量,并且(大致)具有相同的大小,例如
    • 不同化学物质的相对浓度
    • 不同波长的吸光度
    • 不同波长的发射强度(否则,相同的测量条件)
  • 您肯定不想标准化在样本之间(基线通道)不变的变量-您只会炸毁测量噪声(您可能希望将其从模型中排除)
  • 如果您具有与这些物理相关的变量,则所有变量的测量噪声可能大致相同,但是信号强度的变化更大。即,具有低值的变量具有较高的相对噪声。标准化会炸毁噪音。换句话说,您可能必须决定是否要对相对噪声或绝对噪声进行标准化。
  • 您可能会使用一些物理上有意义的值来将您的测量值与之相关,例如,使用透射强度(透射率T)的百分比来代替透射强度。

您可以在“之间”执行某些操作,然后转换变量或选择单位,以使新变量仍然具有物理含义,但是数值的变化没有太大不同,例如

  • 如果您使用的是老鼠,请使用体重g和以厘米为单位的长度(两者的预期变化范围均为5),而不是基本单位kg和m(预期的变化范围0.005 kg和0.05 m-一个数量级的差异)。
  • 对于上述透射率T,您可以考虑使用吸光度A=log10T

居中类似:

  • 可能存在(物理/化学/生物学/ ...)有意义的基线值(例如,对照,百叶窗等)
  • 这个中位数真的有意义吗?(普通人只有一个卵巢和一个睾丸)

+1并被接受,是因为何时以及何时不太标准化的有用清单,谢谢
Andrew

6
+1为“普通人只有一个卵巢和一个睾丸”(&其余答案也为;-)。
gung-恢复莫妮卡

1
@cbeleites您是否有机会提供一个链接,该链接可以在您在回答中使用的上下文中解释基准通道?我之前从未听说过该词,并且正在获得搜索结果,这对理解您在此处的使用没有帮助。谢谢!
mahonya 2013年

1
@sarikan:看看无花果。本文第1篇:americanlaboratory.com/913-Technical-Articles/…出于生物学和物理化学原因,在2000到2700 cm之间的范围内,没有信号可望。该区域可用于估计基线(根据不是拉曼的物理效应),然后将其减去。这些变量将近似为零加上一些噪声。1
cbeleites 2013年

9

在标准化之前,我总是问自己一件事:“我将如何解释输出?” 如果有一种无需转换就可以分析数据的方法,那么从解释的角度来看,这可能是更好的选择。


7

通常,除非绝对必要,否则我不建议您进行缩放或标准化。这种方法的优点或吸引力在于,当一个解释变量的物理尺寸和大小与响应变量完全不同时,通过除以标准偏差进行换算可能有助于数值稳定性,并使人们能够比较多个变量的影响。解释变量。在最常见的标准化中,变量效应是当解释变量增加一个标准偏差时,响应变量的变化量。它也表明尽管解释变量的统计值保持不变,但变量效果的含义(当解释变量增加一个单位时响应变量的变化量)将丢失。然而,当在模型中考虑相互作用时,即使对于统计测试,缩放也可能会带来很大的问题,因为这种复杂性涉及到在计算相互作用效应的标准误差时的随机缩放调整(Preacher,2003)。因此,通常不建议通过标准偏差(或标准化/标准化)进行缩放,尤其是在涉及交互时。

Preacher,KJ,Curran,PJ和Bauer,DJ,2006。用于在多重线性回归,多级建模和潜曲线分析中探究相互作用影响的计算工具。教育与行为统计杂志,31(4),437-448。


4
我质疑您的主张,“通常不建议使用标准化预测变量,尤其是在涉及交互时”。Gelman和Hill以及Raudenbush&Bryk均未在其案文中提及这种担忧。但是,如果有机会,我会感兴趣地查看您提到的参考文献。
Michael Bishop

如果我们将校准Universe std用作缩放变量,则缩放不是随机的。
亚当,2015年

有人可以确定交互作用下缩放是否有害吗?在以上讨论中似乎尚未解决该问题。
Talik3233
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.