这个问题似乎一直在抬头,我出于我对统计(和理智!)的理解而试图将其斩首。
一般线性模型的假设(t检验,ANOVA,回归等)包括“正态性假设”,但我发现很少对此进行清楚地描述。
我经常碰到统计教科书/手册等,只是简单地指出“正态性假设”适用于每个组(即X类分类变量),我们应该检查每个组与正态性的背离。
问题:
假设是指Y 的值还是Y的残差?
对于特定的组,是否可能具有强烈的Y 值非正态分布(例如,偏斜),但是Y 残差的近似(或更正态分布)呢?
其他资料表明,该假设与模型的残差有关(在存在组的情况下,例如t检验/ ANOVA),我们应该检查这些残差的正态性偏离(即,只有一个QQ图/检验与跑)。
不残差的正态模型意味着残差的正态群体?换句话说,我们是否应该仅检查模型残差(与许多文本中的说明相反)?
为了说明这一点,请考虑以下假设示例:
- 我想比较两个种群(X)之间的树高(Y)。
- 在一个种群中,Y的分布强烈向右偏斜(即,大多数树短而高的树很少),而另一种实际上是正常的
- 总体而言,身高在正态分布的人群中较高(建议可能存在“实际”差异)。
- 数据转换并不能大大改善第一批人口的分布。
首先,比较完全不同的高度分布的组是否有效?
我在这里如何处理“正常性假设”?一个人群的召回身高不是正态分布。难道我检查残差两个群体单独或残差的模型(t检验)?
请在答复中按数字提及问题,经验表明我很容易迷路或迷路(尤其是我!)。请记住,我不是统计学家。尽管我对统计数据有一个合理的概念(即非技术性!)理解。
PS,我已经搜索了档案并阅读了以下没有巩固我的理解的主题: