在百分比上使用ANOVA?


13

我有一个包含四个组(4个BMI组)的表作为自变量(因子)。我有一个因变量,即“孕期母亲吸烟的百分比”。

为此可以使用ANOVA还是必须使用卡方检验或其他测试?

Answers:


21

将二进制变量作为因变量与将比例作为因变量之间存在区别。

  • 二进制因变量

    • 这听起来像您所拥有的。(即,每个母亲要么吸烟要么不吸烟)
    • 在这种情况下,我不会使用方差分析。如果将二进制变量概念化为因变量,则对分类预测变量使用某种形式的编码(也许是伪编码)进行逻辑回归是显而易见的选择(否则您可以进行卡方)。
  • 比例作为因变量

    • 这听起来不像您所拥有的。(即,在抽烟的孕妇样本中,您没有关于母亲在怀孕期间抽烟的总清醒时间的比例的数据)。
    • 在这种情况下,ANOVA和标准线性模型方法通常对于您的目的可能是合理的,也可能不是合理的。有关问题的讨论,请参见@Ben Bolker的答案。

对于二进制因变量,在我仅具有二进制比例的摘要数据的情况下(即,A,B和C组中的#,A,B和C组中的成功的数目),而没有实际的原始数据,我们如何使用逻辑回归?我只熟悉将其与原始数据一起使用。
布赖恩

15

这取决于不同组内的响应接近0或100%的程度。如果有很多极限值(即许多值堆积在0或100%上),这将很困难。(如果您不知道“分母”,即不算百分比的主题数,则无论如何都不能使用列联表法。)如果组中的值更合理,则可以转换响应变量(例如经典反正弦平方根或对数变换)。有多种图形(首选)和零假设检验(较不受欢迎)测试方法来确定转换后的数据是否充分满足ANOVA的假设(方差和正态性的同质性,前者比后者更为重要)。图形测试:箱线图(方差的均一性)和QQ图(正态性)[后者应在组内或残差上进行]。零假设检验:例如Bartlett或Fligner检验(方差的均质性),Shapiro-Wilk,Jarque-Bera等。


11

您需要具有原始数据,以便响应变量为0/1(不是冒烟,冒烟)。然后,您可以使用二进制逻辑回归。将BMI分为时间间隔是不正确的。临界点是不正确的,可能不存在,并且您还没有正式测试BMI是否与吸烟有关。您目前正在测试是否已丢弃其大部分信息的BMI是否与吸烟相关。您会发现,特别是外部BMI间隔非常不同。


2
@Frank-为什么对BMI进行分组“不正确”?只要对结果进行适当的解释,这似乎是完全合理的。例如,您可能正在测试“体重过轻”,“健康体重”,“超重”和“肥胖”是否与吸烟相关,这些术语由BMI范围定义。我在这里看不到任何“错误”。
概率

我认为OP正在使用通用的教学数据集,并且可能没有原始的BMI。尽管离散连续回归器通常不理想,但这并不是“不正确的”。当我们怀疑测量结果嘈杂并且没有其他资源时,诉诸于此甚至会有所帮助。确实,我们要检验的真实假设是肥胖是否与吸烟有关。BMI只是衡量肥胖的一种方法(据我所知存在其问题)。
JMS

4
即使在嘈杂的测量中,将变量分析为连续的也是优越的。对BMI进行分类所带来的问题比分析的不同选择所能解决的更多。实际上,对分类的估计不再具有科学的解释。科学数量是在当前实验之外具有意义的数量。您会发现组估计(例如,对于X的高间隔和低间隔,Y = 1的对数几率)是整个观察到的BMI集的函数。例如,如果要向样本中添加更高或更低的BMI,则“效果”将变得更强。
弗兰克·哈雷尔

对于已安装R和RStudio的用户,可以在biostat.mc.vanderbilt.edu/BioMod上找到一个交互式演示-请参阅绿色的NEW标记。您必须将脚本加载到RStudio中,还必须安装Hmisc软件包。
弗兰克·哈雷尔

“即使在嘈杂的测量中,将变量分析为连续也是比较好的。”这是不正确的(它的普遍性,通常是正确的)。假设您有一个连续的协变量,例如,其测量误差随其幅值而增加。当然,最好的办法是对错误进行建模,或者获得更好的度量值,等等。但是要说这是不正确的,那就太过分了。
JMS

3

如果选择对比例数据进行普通方差分析,则验证均质误差方差的假设至关重要。如果(与百分比数据一样)误差方差不是恒定的,则更现实的选择是尝试beta回归,这可以解释模型中的这种异方差性。这是一篇论文,讨论处理百分比或比例的响应变量的各种替代方法:http : //www.ime.usp.br/~sferrari/beta.pdf

如果使用R,则包betareg可能会有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.