我正在尝试比较2个人群的数据,以判断治疗之间的差异是否具有统计学意义。数据集看起来是正态分布的,两组之间的差异很小。平均差异为0.00017。我执行了配对t检验,期望我不会拒绝均值之间没有差异的零假设,但是,我计算出的t值要比临界t值高得多。
我正在尝试比较2个人群的数据,以判断治疗之间的差异是否具有统计学意义。数据集看起来是正态分布的,两组之间的差异很小。平均差异为0.00017。我执行了配对t检验,期望我不会拒绝均值之间没有差异的零假设,但是,我计算出的t值要比临界t值高得多。
Answers:
即使平均差异很小,我也没有理由相信您做错了什么仅仅是因为测试很重要。在配对t检验中,重要性将由三件事决定:
诚然,您的平均差异非常小。另一方面,您确实有大量数据(N = 335)。最后一个因素是差异的标准偏差。我不知道那是什么,但是由于您得到了重要的结果,因此可以放心地假设它足够小,可以克服所拥有数据量的微小均值差异。为了建立直觉,假设您的研究中每个观察值的配对差异为0.00017,则差异的标准偏差为0。当然,可以合理地断定治疗导致了减少(尽管一个很小的)。
正如@whuber在下面的注释中指出的那样,值得指出的是,虽然0.00017看起来像是一个很小的数字,但从有意义的角度来看,它不一定很小。要知道这一点,我们需要了解几件事,首先是什么单位。如果单位非常大(例如,年,公里等),则看起来很小的单位可能会有意义地大,而如果单位很小(例如,秒,厘米等),则这种差异似乎会更小。其次,即使是很小的变化也可能很重要:想象一下一种非常便宜,易于在整个民众中使用且无副作用的治疗方法(例如疫苗)。即使只挽救了很少的生命,这也很值得。
要知道差异是大还是小,需要某种规模的度量,标准偏差是规模的一种度量,并且是t检验公式的一部分,以部分说明该规模。
考虑是否要比较5岁儿童的身高和20岁儿童的身高(人,相同地理区域等)。直觉告诉我们,那里存在实际的差异,如果高度以英寸或厘米为单位进行测量,则差异将是有意义的。但是,如果将高度转换为公里怎么办?还是光年?那么差异将是一个很小的数字(但仍会有所不同),但是(除非舍入误差),无论以英寸,厘米或公里为单位测量高度,t检验都将得出相同的结果。
因此,根据测量范围的不同,0.00017的差异可能很大。
unlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populations
pop1=rep(15:20* .00001, 56);pop2=rep(0,336) #Some fake samples of sample size = 336
t.test(pop1,pop2,paired=T) #Paired t-test with the following output...
也许您比实际意义上的零假设重要性测试更感兴趣于实践意义。实际意义将更多地取决于上下文中数据的含义,而不是统计意义。这不是纯粹的统计问题。我在这里回答了一个普遍的问题,即适应p值的根深蒂固的观点时,引用了这个原理的一个有用示例:
这种“生死攸关的事情”基本上就是阿司匹林对心脏病发作的影响大小,这是一个很小的,数量少得多的,具有实际意义的一致差异的有力例子。您可以从中受益的许多其他答案都可以得到可靠的答案,其中包括:
参考
Rosenthal,R.,Rosnow,RL,和Rubin,DB(2000)。行为研究中的对比和影响大小:一种相关方法。剑桥大学出版社。
这是R中的一个例子,显示了实际的理论概念。10,000次掷硬币10,000次的正面概率为.0001的试验,与10,000次掷硬币10,000次的正面概率为.00011的试验
t.test(rbinom(10000,10000,.0001),rbinom(10000,10000,.00011))
t = -8.0299,df = 19886.35,p值= 1.03e-15替代假设:均值的真实差异不等于0 95%置信区间:-0.14493747 -0.08806253样本估计:x的平均值y的平均值0.9898 1.1063
就人类的感知而言,平均值的差异相对接近于0,但在统计学上却与0差异很大。