除了平方根,对数等普通转换外,还常用哪些其他归一化转换?


10

在测试成绩的分析中(例如在教育或心理学中),常用的分析技术通常会假设数据是正态分布的。但是,有时分数往往会与正常水平大相径庭。

我熟悉一些基本的规范化转换,例如:平方根,对数,用于减少正偏斜的倒数转换,用于减少负偏斜的上述反射形式,平方函数的平方。我听说过反正弦变换和幂变换,尽管我并不真正了解它们。

因此,我对分析师通常使用的其他转换感到好奇吗?

Answers:


5

箱考克斯转型包括很多你所引用的那些的。有关更多详细信息,请参见此答案:

更新:这些幻灯片很好地概述了Box-Cox转换。


如果将t-tools应用于Box-Cox转换后的数据,我们将获得有关转换后数据均值差异的推断。我们如何以原始的测量尺度来解释那些?(转换后的值的平均值不是转换后的平均值)。换句话说(如果我是正确的话),在转换后的尺度上对均值的估计值进行逆变换,不会在原始尺度上给出对均值的估计。
乔治·唐塔斯

@ gd047,某些测试假定均值而非数据的正态分布。对于基础数据,t检验往往非常健壮。但是,您是对的-对于转换后测试,结果在逆转换后报告,解释可能会非常麻烦。归结为您的数据有多“不正常”,您能否在不进行转换或应用例如易于解释的对数转换的情况下摆脱困境。否则,它取决于实际的转换和领域,我真的没有一个很好的答案。可能值得一问,看看别人怎么说?
ars

10

第一步应该是问为什么你的变量为非正态分布。这可能是有启发性的。根据我的经验得出的常见发现:

  • 能力测试(例如,考试,智力测验,入学测验)在存在天花板效应时趋向于负偏斜,而在存在地板效应时趋向于正偏斜。两项发现均表明,对于样品而言,测试的难度级别并未优化,因为太容易或太难以至于无法最佳地区分能力。这也意味着感兴趣的潜在变量仍可以正态分布,但是测试的结构正在引起被测变量的偏斜。
  • 能力测试通常在低分者方面有离群值。简而言之,有许多方法可以使测试表现不佳。尤其是在某些情况下,这种情况有时在考试中可见一斑,在少数学生中,由于缺乏才智和缺乏努力而导致考试分数很低。这意味着感兴趣的潜在变量可能有一些异常值。
  • 关于自我报告测验(例如性格,态度测验等),当样本本来就很高时(例如,由于大多数人感到满意而使生活满意度的分布出现负偏斜),或者当该量表出现时,往往会发生偏差。已针对与测试所用样品不同的样品进行了优化(例如,对非临床样品进行了抑郁症的临床测量)。

第一步可能建议对测试进行设计修改。如果您提前意识到这些问题,那么即使您认为它们有问题,您甚至可以设计测试来避免它们。

第二个步骤决定做什么的,你有非正常的数据的情况。注意转换只是一种可能的策略。我要重申先前关于非正常性的答案的一般建议:

  • 许多假设残差正态性的过程对于轻微违反残差正态性是稳健
  • 自举通常是一个好策略
  • 转型是另一个好的策略。请注意,根据我的经验,通常在能力和自我报告心理测验中通常会出现的轻度偏斜,通常可以使用对数,平方或逆变换(或反向等效)很容易地转换为近似正态分布。

9

John Tukey在他有关EDA的书中系统地讨论了转换。除了Box-Cox系列(仿射缩放的幂变换)之外,他还定义了比例(基本上是x /(1-x)的幂)和“起始”计数(对计数数据加上正偏移)的“折叠”变换族。在进行转换之前)。折叠变换实质上是对数的泛化,对于测试分数特别有用。

完全不同的是,强生(Johnson&Kotz)在其有关分布的书中提供了许多转换,这些转换旨在将检验统计量转换为近似正态(或转换为其他一些目标分布),例如卡方的立方根转换。当您预计数据将遵循某些特定的分布时,本材料是进行有用转换的重要思想来源。


2

一个简单的选择是使用分数总和而不是分数本身。分布的总和趋于正态。例如,在教育中,您可以在一系列测试中添加学生的分数。

当然,另一种选择是使用不被假定为正态性的技术,这些技术被低估且未充分使用。


1
我认为需要对总和进行归一化(例如,使用平均得分)以使分布趋于正态。

1
对,那是正确的。在我的示例中,我假设班级的学生人数相同,这是不现实的。谢谢。
卡洛斯·阿乔里

1

对于偏斜和重尾数据,我使用(并开发了)Lambert W x F分布框架。 偏斜重尾 Lambert W x F分布基于输入随机变量(RV)的非线性变换,以输出,与X相似,但偏斜和/或重尾(有关详细公式,请参阅论文)。ý 大号b ë ř W¯¯ × ˚FXFY LambertW×F

这通常适用于任何连续RV,但实际上,我们对高斯最为感兴趣。对于重尾Lambert W x F分布,该逆是双射的,可以使用您喜欢的估计器针对参数从数据进行估计(MLE,矩量法,贝叶斯分析,...)。对于并且X为高斯分布,它简化为Tukey的h分布。θ = μ Xσ Xδ α α ≡ 1XN(μ,σ2)θ=(μx,σx,δ,α)α1

现在,作为数据转换,由于转换是双射的(对于偏斜情况几乎是双射的),并且可以使用Lambert的W函数(因此称为Lambert W x F)显式获得,因此这变得很有趣。这意味着我们可以从数据中消除偏斜度,也可以消除粗尾(双向!)。

您可以使用LambertW R软件包进行尝试,该手册显示了许多使用方法的示例。

对于应用程序,请参阅以下帖子

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.