独立样本t检验:真的需要对大样本数据进行正态分布吗?


13

假设我要测试两个独立样本是否具有不同的均值。我知道基础分布不正常

如果我理解正确,则我的检验统计量就是平均值,并且对于足够大的样本量,即使没有样本,平均值也应呈正态分布。因此,在这种情况下,参数显着性检验应该有效,对吗?我已阅读了与此相关的令人困惑和令人困惑的信息,因此,我希望获得一些确认(或解释我错了的原因)。

另外,我已经读过,对于大样本量,我应该使用z统计量而不是t统计量。但是实际上,t分布将收敛于正态分布,并且两个统计量应该相同,不是吗?

编辑:以下是一些描述z检验的资料。他们都声明必须按正态分布人口:

在这里,它说:“无论使用哪种Z检验,都假定抽取样本的总体是正常的。” 而在这里,对于Z测试的要求,被列为“两正态分布,但独立的群体,σ被称为”。


你说的是有道理的。您正在使用中心极限定理来假设样本均值分布的正态性。另外,您使用t检验是因为您没有总体方差,而是根据样本方差进行估计。但是,您可以链接或发布任何这些有冲突的来源吗?
Antoni Parellada

感谢您的回复!例如,这里的z检验要求被列为“两个正态分布但独立的总体,σ是已知的”,因此他们在谈论总体的分布,而不是均值-这是错误的吗?
丽莎

@AntoniParellada我在原始帖子中加入了一些资料!
丽莎


如果知道原始人口是正常的,那么我们将处于一个完美,不可挑战的局面。但是,CLT通常存在,特别是在大样本中,以避免依赖链接纸上指示的这种非常高的条件。
安东尼帕雷拉达

Answers:


7

我认为这是CLT的常见误解。CLT不仅与保留II型错误(在此没有人提及)无关,而且在必须估计总体方差时通常不适用。当数据为非高斯分布时,样本方差可能与缩放的卡方分布相去甚远,因此,即使样本大小超过成千上万,CLT也可能不适用。对于许多分布,SD甚至不是分散的好方法。

要真正使用CLT,必须满足以下两个条件之一:(1)样本标准偏差可作为真实未知分布的色散度量,或(2)已知真实总体标准偏差。通常情况并非如此。n = 20,000的示例对于CLT来说太小了,以至于CLT无法“工作”,这得益于从对数正态分布中抽取样本,如本网站其他地方所述。

如果例如分布是对称的并且不具有比高斯分布更重的尾部,则样本标准偏差将作为分散度量“起作用”。

我不想依靠CLT进行任何分析。


3
CLT可能有点红鲱鱼。通常可能会出现样本均值具有明显非正态分布且样本SD呈非正弦形状的情况,但是t统计量仍可以通过Student t分布进行近似估计(部分原因是两者之间的依赖性)统计)。是否应在任何给定情况下进行评估。但是,由于CLT对有限样本的主张很少(并且绝对没有对它们进行定量描述),因此其支持分布假设的调用通常是无效的。
ub

可以公平地说,我们正在讨论(并且在我的情况下学习)每天(每天不定期)执行的程序(将未知分布的两个样本均值与t检验进行比较),尽管每天都会理由可以弱吗?而且,实践中是否有CLT的任何使用,即使不是理想的,也可以接受/接受的吗?
安东尼帕雷拉达,2016年

该 t-统计往往有一个分布是从很远的分配当数据来自非高斯分布。是的,我会说使用检验的理由比大多数从业者所认为的要弱。这就是为什么我更喜欢半参数和非参数方法。牛逼牛逼ttt
Frank Harrell

2
CLT实际上是一种渐近陈述,当大多数人调用它时,我怀疑他们脑海中的想法确实像是Berry-Esseen定理(他们认为,归纳到正态是以“合理”的速率发生的,因此它们的样本量大)是“足够好”)。但是,即使这种稍微复杂的推理也可能导致关于t检验有效性的错误结论。我想知道在这个答案中是否值得一提/强调,即使是Berry-Esseen也不会“保存”对CLT的谬论。
银鱼

3
@FrankHarrell“样本标准偏差可作为对真实未知分布的色散的度量”是什么意思?如果您在回答中添加了简短的解释(可能只有一个句子),将会很有帮助。
mark999 '16

9

我在此留下一段评论,以便使之有意义:原始种群中正态性的假设可能过于局限,可以放弃集中于采样分布,而得益于中心极限定理,尤其是对于大样本。

如果您(通常是这样)不知道总体方差,而是使用样本方差作为估计量,则应用检验可能是一个好主意。需要注意的是相同的方差的假设可能需要用方差F检验或应用合并方差之前Lavene测试进行测试-我在GitHub上的一些注意事项这里t

正如您所提到的,随着样本的增加,t分布确实会收敛于正态分布,如下面的快速R图所示:

在此处输入图片说明

红色为正态分布的pdf,紫色为分布的pdf的“胖尾”(或更重的尾巴)随着自由度的增加而逐渐变化,直到最终与正常情节。t

因此,对大样本应用z检验可能会很好。


用我的最初答案解决问题。谢谢Glen_b对OP的帮助(解释中可能出现的新错误完全是我的)。

  1. 在正常假设下的T统计量:

除了一样本与两样本(成对和非成对)的公式中的复杂性之外,关注样本平均值与总体平均值比较的一般t统计量为:

(1)t-test=X¯μsn=X¯μσ/ns2σ2=X¯μσ/nx=1n(XX¯)2n1σ2

如果遵循均值和方差正态分布:μ σ 2Xμσ2

  1. 的分子。Ñ 1 0 (1) N(1,0)
  2. 分母将是(缩放卡方)时,由于作为衍生这里小号2 / σ 2(1)s2/σ2n11n1χn12(n1)s2/σ2χn12
  3. 分子和分母应独立。

在这些条件下,。t-statistict(df=n1)

  1. 中心极限定理:

随着样本量的增加,样本均值的样本分布趋于正态的趋势可以证明假设分子的正态分布是合理的,即使总体不是正态。但是,它不会影响其他两个条件(分母的卡方分布和分子与分母的独立性)。

但并非所有的损失,在这个帖子是讨论Slutzky定理是如何支持对正态分布的渐进收敛,即使不满足分母的阴气分布。

  1. 坚固性:

在Sawilowsky SS和Blair RC于Psychological Bulletin,1992,Vol.1上发表的论文“更真实地看t检验偏离人口正态性的t检验的鲁棒性和II型误差特性”上111,第2号,第352-360页,他们针对功率和I型错误测试了较不理想或较“真实世界”(较不正常)的分布,可以找到以下断言:“尽管对类型而言是保守的,对于某些实际分布,t检验是错误的,对于所研究的各种治疗条件和样本量,功率水平几乎没有影响。研究人员可以通过选择稍大的样本量来轻松补偿功率的轻微损失。”

普遍的观点似乎是,只要涉及(a)类样本错误,只要(a)样本大小相等或近似,(b)样本,独立样本t检验对于非高斯总体形状具有相当强的鲁棒性。样本量相当大(Boneau,1960年,提到的样本量为25至30),并且(c)测试是两尾而不是单尾,同时请注意,当满足这些条件并且标称阿尔法值与实际阿尔法值之间存在差异时,通常,差异通常是保守的,而不是自由的。

作者的确强调了该主题的争议性方面,我期待着哈雷尔教授提到的基于对数正态分布的一些模拟工作。我还想提出一些与非参数方法(例如,Mann-Whitney U检验)进行的蒙特卡洛比较。这项工作正在进行中...


模拟:

免责声明:以下是其中一种以另一种方式“证明自己”的练习。结果不能用于概括(至少不是我本人),但是我想我可以说,这两种(可能有缺陷的)MC模拟对于在这种情况下使用t检验似乎并不太令人沮丧描述。

类型I错误:

关于类型I错误的问题,我使用对数正态分布进行了蒙特卡洛模拟。从参数和的对数正态分布中多次提取被认为是较大样本()的样本,我计算了如果我们比较均值将产生的t值和p值这些样本中,所有样本均来自同一种群,且大小相同。根据注释和右边分布的明显偏斜来选择对数正态:n=50μ=0σ=1

在此处输入图片说明

设置显着性水平为的I型实际错误率应该是,还不错。5%4.5%

实际上,所获得的t检验的密度图似乎与t分布的实际pdf重叠:

在此处输入图片说明

最有趣的部分是看t检验的“分母”,该部分应该遵循卡方分布:

(n1)s2/σ2=98(49(SDA2+SDA2))/98(eσ21)e2μ+σ2

在这里,我们使用常见的标准偏差,如本维基百科条目所示

SX1X2=(n11)SX12+(n21)SX22n1+n22

而且,出乎意料的是(或没有),该图与叠加的卡方pdf非常不同:

在此处输入图片说明

II型错误和功率:

血压分布可能是对数正态的,这对于建立一个综合方案非常有用,在该方案中,比较组的平均值在一定程度上与临床相关性分开,例如在一项测试血压影响的临床研究中如果药物集中在舒张压上,则可以认为平均效果下降了 mmHg(选择的SD约为 mmHg):9109

在此处输入图片说明 在与这些虚拟组之间的I型错误类似的Monte Carlo模拟上运行比较t检验,并且显着性水平为我们最终得到 II型错误,只有。0.024 99 5%0.024%99%

代码在这里


1
我认为这是CLT的常见误解。CLT不仅与保留II型错误(在此没有人提及)无关,而且在必须估计总体方差时通常不适用。当数据为非高斯时,样本方差可能与缩放的卡方分布相去甚远,因此,即使样本大小超过几万,CLT也可能不适用。对于许多分布,SD甚至不是分散的好方法。
Frank Harrell

1
哈雷尔教授,如果帖子不正确,我很乐意删除。这很可能是一个非常根本的误解。我建议将CLT应用于样本均值的分布是否可以验证大样本中均值与z检验或t检验的比较,而与样本来源的分布无关。这是不正确的?
安东尼帕雷拉达,2016年

1
如果(1)样本标准偏差用作真实未知分布的色散度量,或者(2)已知真实总体标准偏差,那将是正确的。通常情况并非如此。以及N = 20,000就是一个例子的CLT到“工作”太小来自从对数正态分布收集样品。在拥有20年经验的统计学博士学位中,对这些观点的误解普遍存在。
Frank Harrell's

5
丽莎(Lisa)的问题是,您是否需要比较均值,还是只想比较两个总体的位置。在某些应用中,关注点集中在均值或总和上,而用其他参数代替均值或总和几乎没有用处。在人口是自然累积的数量(例如金钱或环境污染)的情况下,尤其如此。
ub

3
安东尼,关于健壮性的最后一节非常合适。我进行了许多与Sawilosky和Blair所描述的研究类似的研究,并且阅读了更多的文章,因此怀疑他们的结论必须限于非常特殊的数据。在存在高度偏斜的分布的情况下,t检验惨遭失败,尤其是在功率方面。多年来令我感到惊讶的是,它确实比其他偏离常态的方法更健壮,以至于我在声称它是非参数程序的观点上看到了一定的道理。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.