如何进行仅包含样本数量,样本平均值和总体平均值的学生t检验?


28

学生的检验要求样本标准偏差。但是,我怎么计算的当只有样本量和样本平均已知?tss

例如,如果样本大小为,样本平均值为,那么我将尝试创建相同样本的列表,每个样本的值均为。预期样本标准偏差为。这将在检验中产生零除问题。49112491120t

其他数据:
ACME北部工厂工人的平均收入为$200。据报道,在ACME南部工厂随机抽取49名工人,他们的年收入$112。这种差异具有统计意义吗?

我是否正确地说人口平均数为$200


您要解决什么问题?如果您告诉我们更多信息,它将对我们有帮助。
pmgjones

当然。我添加了一个示例问题。
套件

Answers:


32

这可能会让很多人感到惊讶,但是要解决此问题,您不必估计s。实际上,您无需了解任何有关数据传播的信息(尽管这当然会有所帮助)。例如,Wall,Boen和Tweedie在2001年的一篇文章中描述了如何基于一次绘制为任何单峰分布的均值找到一个有限的置信区间。

在目前的情况下,我们有一定的基础将样本均值112作为近似正态分布(即49个薪水的简单随机样本的平均值的样本分布)的平局。我们隐式地假设有大量的工厂工人,并且他们的工资分配没有偏斜或多模态,以致于中央极限定理无法使用。然后,平均值的保守90%CI向上延伸至

112+5.84 |112|,

清楚地涵盖了200的真实均值。(请参阅Wall 等人的公式3。)鉴于可用信息有限以及此处所做的假设,因此,我们不能得出结论认为112与200有“显着”差异。

参考:“有效样本数的有效置信区间,大小为1和2。” 美国统计学家,2001年5月,第1卷。55,第2号:第102-105页。pdf


4
是的!这就是为什么值得研究的原因:直觉方面的挑战具有特殊的教育意义。我最初是从Carlos Rodriguez(SUNY奥尔巴尼)网页上的一篇清晰的论文中学到的,但是今天早晨我找不到它:服务器似乎已关闭。稍后再尝试使用Google搜索“ carlos rogriguez统计信息”。(他的论文应该在omega.albany.edu/8008/confint.html上,但这可能是旧的URL。)
whuber

4
惊人。我不知道 感谢您的参考。
罗伯·海德曼

4
谢谢-您想得到的这是罗德里格斯论文吗? arxiv.org/abs/bayes-an/9504001
ARS

2
这很棒。但是,我很好奇您为什么要应用公式(3)(来自Edelman),Wall等人将其描述为“超出了必要范围”。在紧接提到(3)之前,该段落的末尾他们使用90%的间隔中的4.84(比5.84小1),这是从等式(4)得出的。毫无疑问,我错过了一些东西。
Glen_b-恢复莫妮卡2014年

2
@Glen_b相反,很可能我错过了一些东西。下次需要这篇论文时,我会注意这一点,但是与此同时,常数的差异不会影响此处的分析。
ub

13

这确实是一个有点人为的问题。49是7的精确平方。对于p <0.05的双向测试,具有48 DoF的t分布值非常接近2(2.01)。

如果| sample_mean-popn_mean |,我们拒绝均值相等的零假设。> 2 * StdError,即200-112> 2 * SE,因此SE <44,即SD <7 * 44 = 308。

如果没有负工资,就不可能获得均值为112,标准偏差为308(或更大)的正态分布。

给定工资在以下范围内,它们可能会偏斜,因此假设对数正态分布会更合适,但是仍然需要高度可变的工资,才能避免t检验的p <0.05。


3

假设ACME北部工厂有999名工人,每个工人的工资为112,而1名CEO的工资为88112。人口平均工资为。工厂的49人为(这是从超几何分布中得出的),因此,在95%的置信度下,您的总体样本均值将为112。实际上,通过调整工人/首席执行官的比例以及作为首席执行官,我们可以任意选择49名员工作为样本,而将人口平均数固定为200,将样本均值固定为112。因此,如果不对基本分布进行某些假设,就无法得出任何结论。关于总体均值的推论。μ=0.999112+0.00188112=200.49/1000<0.05


2
(1)我想您的意思是说样本(而不是总体平均值)是112,概率为95%,而不是置信度。(2)您的观点很正确-它可以适用于任何问题-但这不是很极端吗?首先,该问题不需要推断总体均值:我们被告知是200。因此,在假设的前提下,我们可以确定地估算总体均值!其次,即使要求我们从样本中估算总体均值,我们仍然可以提供一些琐碎的信息(例如,每年不超过$ 10 ^ 11)。$
ub

1
(1)抓好。(2),是的,我可以使问题的设置渐近于固定结果,post hoc。我的错。但是,我不再确定OP正在尝试测试什么。如果他们知道人口平均数是200,为什么还要尝试对其进行检验?
shabbychef 2010年

1
顺便说一句,显然,在美国,首席执行官的薪水/最低薪水之比为400。800是有点不对劲。
shabbychef 2010年

2

我想您指的是一个样本t检验。其目标是将样本均值与假设均值进行比较。然后,它计算(假设您的总体是高斯分布的)P值来回答这个问题:如果总体均值确实是假设值,那么绘制均值与该值(或更远)相差不大的样本的可能性就很小。你观察到了吗?当然,该问题的答案取决于样本量。但这也取决于可变性。如果您的数据分散很大,则它们与广泛的总体平均值一致。如果您的数据确实很严格,则它们与较小的总体均值范围一致。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.