如何对大量样本进行t检验?


11

我有两个人口,一个人口N = 38,704(观察数),另一个人口N = 1,313,662。这些数据集有约25个变量,所有变量都是连续的。我考虑了每个数据集中的每个平均值,并使用公式计算了测试统计量

t =平均差/标准差

问题在于自由度。通过df = N1 + N2-2的公式,我们将拥有表无法处理的更多自由度。有什么建议吗?如何在此处检查t统计量。我知道t检验用于处理样品,但是如果我们将其应用于大样品该怎么办。

Answers:


20

chl在使用同一数据集同时进行25次测试时已经提到了多个比较的陷阱。一种简单的处理方法是通过将p值阈值除以测试次数来调​​整(在本例中为25)。更精确的公式为:调整后的p值= 1-(1- p值)^(1 / n)。但是,两个不同的公式得出的调整后的p值几乎相同。

假设检验练习还有另一个主要问题。您肯定会遇到Type I错误(误报),从而发现一些真正的琐碎差异,这些差异在99.9999%的水平上极为重要。这是因为当您处理一个如此大的样本(n = 1,313,662)时,您会得到非常接近0的标准误差。这是因为1,313,662 = 1146的平方根。因此,您将标准偏差除以1,146。简而言之,您将捕获可能完全无关紧要的微小差异。

我建议您远离此假设检验框架,而进行效果大小类型分析。在此框架内,统计距离的度量是标准偏差。与标准误差不同,标准偏差不会被样本大小人为地缩小。而且,这种方法将使您更好地了解数据集之间的实质差异。效果大小还更加关注均值均值周围的置信区间,比假设检验关注通常根本不重要的统计显着性要有意义得多。希望能有所帮助。


4
+1提出关键思想:(1)我们可以保证在数据集如此大的情况下均值会有所不同;(2)其他一些分析可能更合适和有用。但是,由于我们不了解分析的目的,因此在提出具体建议时应谨慎。
Whuber

谢谢Gaetan ..明白了。.我想我能避免的是,当您有像我这样的大样本时,标准差是更好的测量方法。
ayush biyani

1
哎呀...你是对的。基本上就是这样。而且,这是因为您的标准误差会变得很小(由于样本量很大)。这反过来夸大了测试组和对照组之间的统计距离。并且,导致您最终遇到I型错误(发现一个很小的差异而无关紧要)。这是大样本假设检验中的一个普遍问题。
Sympa '11

14

随着自由度的增大,学生的t分布越来越接近标准正态分布。在自由度为1313662 + 38704 – 2 = 1352364的情况下,t分布与标准正态分布是无法区分的,如下图所示(除非您处于极端的尾部并且您对将绝对微小的p值与甚至更小的p值区分开)。因此,您可以将表格用于标准正态分布,而不是将表格用于t-分布。

替代文字


伙计们,谢谢你的回答。我有数据要分析。我如何将数据附加到此。有很多事情要问你。。谢谢大家的期待。希望得到及时答复。
ayush biyani

4
??您在问题中说,您已经计算了t统计量,并且chl提供了示例R代码。您还想要什么?顺便说一句,我不确定您是否有权期待或要求迅速答复。您不会为此而得到报酬。
一站式

1
@ayush对于您的上一个问题,我会为您的问题(IMHO)提供完整的答案-然后在我认为您正在询问另一个问题(不是此处的评论选项的目的)时停止之前,对您的评论进行了后续跟进。因此,我建议您要么明确说明您的问题是否与理论考虑有关,要么应用数据分析(在后一种情况下,请给我们提供一个可重现的示例),或者将您的问题分开。顺便说一句,您仍然可以选择接受自己认为有用的答案(再次,是您的原始问题,而不是后面的评论)。
chl 2010年

2
@ayush Ah,我只是意识到您永远不会投票给您提供的任何答案(尽管您现在有足够的代表)。
chl 2010年

@ chl-- yeah..even我知道我的这个错误,并应在岗位纠正这个是肯定的,以come..Thanks指出这out..Consider我一段日子天真业余..
AYUSH biyani

10

tznn>30nz

可以肯定的是,由于您的数据集包含25个变量,因此您要进行25个测试?在这种情况下,您可能需要更正多个比较,以免增加I型错误率(请参阅本网站上的相关主题)。

顺便说一句,R软件会为您提供所需的p值,而无需依赖表:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.