当样本“是”总体时的统计推断

47

想象一下，您必须报告每年参加给定考试的候选人人数。例如，由于目标人群的特殊性，很难推断观察到的成功百分比，例如，在更广泛的人群中。因此，您可能会认为这些数据代表了整个人口。

测试结果是否表明男性和女性的比例确实正确？由于您考虑的是总体（而不是样本），因此将观察到的比例与理论比例进行比较的测试是否看起来是正确的？

hypothesis-testing population sampling

— 普诺
source

31

对此可能会有不同的意见，但我会将总体数据视为样本并假设一个假设总体，然后以通常的方式进行推断。考虑这一点的一种方法是，有一个底层的数据生成过程负责收集的数据，即“人口”分布。

在您的特定情况下，这可能更有意义，因为您将来会有很多同类。那么您的人口确实是那些甚至在将来都参加考试的队列。这样，如果您拥有超过一年的数据，则可以考虑基于时间的变化，或者尝试通过错误模型考虑潜在因素。简而言之，您可以开发功能更强大的丰富模型。

— 阿尔斯
source

4

刚从A Gelman看到这篇文章，当分析整个人群而不是样本时，统计分析有何不同？，j.mp/cZ1WSI。一个关于“超级人口”概念分歧的良好起点。

— chl 2010年

2

@chl：很有趣-提醒我，盖尔曼（Gelman）在ANOVA [ stat.columbia.edu/~gelman/research/published/econanova3.pdf ]。

— ARS

+1我刚刚又回来了（通过Google）。我认为您的答案是正确的。

— Shane 2010年

25

实际上，如果您确实很乐观，那么您可以拥有全部人口，甚至无需进行统计。然后，您确切地知道差异有多大，并且没有任何理由再进行测试。一个典型的错误是将统计显着性用作“相关”显着性。如果您对总体进行抽样，则差异是实际的。

另一方面，如果您重新提出假设，则候选者可以被视为可能候选者的样本，这将允许进行统计检验。在这种情况下，通常要测试男性和女性在手头测试中是否有所不同。

正如ars所说，您可以使用多年的测试并将时间作为随机因素。但是，如果您的兴趣确实在于在此特定测试上这些候选项之间的差异，则您不能使用泛化，并且测试是毫无意义的。

— 乔里斯·梅斯（Joris Meys）
source

15

传统上，统计推断是在概率样本和抽样误差的本质中进行的。该模型是检验重要性的基础。但是，还有其他方法可以模拟系统性的机会偏离，结果表明我们的参数（基于采样）测试倾向于很好地近似于这些选择。

假设的参数检验依赖于抽样理论来估计可能的误差。如果从总体中抽取给定大小的样本，则有关样本系统性的知识将使检验和置信区间有意义。对于总体而言，抽样理论根本就没有意义，传统意义上的检验也没有意义。推论是没有用的，没有什么可推论的，只有东西...参数本身。

有些人通过吸引当前人口普查代表的超级人口来解决这个问题。我发现这些吸引力令人信服-参数测试以概率抽样及其特征为前提。给定时间的人口可能是随时间和地点的较大人口的样本。但是，我看不出有任何方法可以合理地论证这是一个随机样本（或更普遍地说是概率的任何形式）。如果没有概率样本，则样本理论和传统的测试逻辑根本不适用。您也可以根据方便性示例进行测试。

显然，要在使用总体时接受测试，我们需要在抽样程序中放弃这些测试的基础。一种方法是识别样本理论检验（例如t，Z和F）与随机化程序之间的紧密联系。随机化测试基于手头的样本。如果我收集有关男性和女性收入的数据，则概率模型和我们误差估计的基础是实际数据值的重复随机分配。我可以将观察到的跨组差异与基于这种随机化的分布进行比较。（顺便说一下，我们一直在实验中一直这样做，从总体模型中随机抽样很少是合适的）。

现在，事实证明样本理论检验通常是随机检验的良好近似。因此，最终，我认为来自人群的测试在此框架内是有用且有意义的，并且可以帮助区分系统差异和机会差异，就像基于样本的测试一样。到达那里的逻辑有些不同，但是对测试的实际意义和使用没有太大影响。当然，直接使用随机化和置换测试可能会更好，因为我们所有的现代计算能力都可以轻松使用它们。

— 布雷特
source

3

+1进行明智的讨论；几点。推理机是人口分析不可用，但在许多情况下，造型，我会怀疑一个人是否曾经拥有的人口数据开始-通常，它不是很难万佛洞。因此，它并不总是吸引超级人群作为部署推理的手段。而不是“超级人口”，更好的方法是假设一个数据生成过程产生，例如，对相关队列进行逐年测试。这就是随机成分产生的地方。

— ars 2010年

2

我认为这里没有任何分歧，只是缺乏用于人口分析的推论机制。随机化测试适用于总体，可以合理地测试数据生成过程是否可能是由于随机生成过程还是系统生成过程引起的。他们不假设随机抽样，而是对机会与系统变化的直接检验。我们的传统测试恰好可以很好地支持它们。

— Brett 2010年

的确是这样：“缺乏推理机”。我这方面的措词粗心大意，尤其是因为我喜欢您在回答中对随机测试的观点。

— ars 2010年

抱歉。我很难理解如何计算排列以及可以为它们得出哪些结论。

— pbneau

引导程序不是有效的替代方法吗？自举如何无法解决对这些假设之一的需求？

— Chernoff

3

假设结果表明候选人在性别方面有所不同。例如，完成测试的人的比例如下：女性40％，男性60％。显而易见，40％与60％不同。现在重要的是决定：1）您感兴趣的人群；2）您的观察与感兴趣的人群之间的关系。以下是有关这两个问题的一些详细信息：

如果您感兴趣的人群只是您所观察到的候选人（例如，2016年申请大学的100名候选人），则无需报告统计显着性检验。这是因为您的兴趣人群已被完全采样...您所关心的就是拥有完整数据的100个候选对象。也就是说，60％等于40％。这个问题的答案是，应用于该计划的100名人口中是否存在性别差异？这是一个描述性问题，答案是肯定的。
但是，许多重要的问题是关于在不同环境中会发生什么。也就是说，许多研究人员想提出过去的趋势，以帮助我们预测（然后计划）未来。这方面的一个示例性问题是：候选人的未来测试在性别方面可能会有所不同吗？这样，感兴趣的人群比上面的方案1中的人群要广。此时，要问的一个重要问题是：您观察到的数据是否可能代表未来趋势？这是一个推论性问题，根据原始海报提供的信息，答案是：我们不知道。

总之，您要报告的统计信息取决于您要回答的问题的类型。

关于基础研究设计的思考可能最有帮助（请在此处尝试：http : //www.socialresearchmethods.net/kb/design.php）。如果您想要更多的高级信息，那么考虑超级人口可能会有所帮助（这里的文章可能会有所帮助：http : //projecteuclid.org/euclid.ss/1023798999#ui-tabs-1）。

— dca
source

2

如果您考虑要衡量的是一个随机过程，那么统计检验是相关的。例如，掷硬币十次以查看它是否公平。您得到6头和4尾–您的结论是什么？

— 詹姆士
source

1

我真的不明白您在掷硬币问题上得出的结论与所提问题之间的关系。也许您可以在这一点上扩大一点？统计测试似乎与它们有助于将观察到的结果推断给更大的人群（无论是参考人群还是普通人群）有关。这里的问题似乎是：鉴于样本在固定的时间段（此处为一年）中接近应试者的人数，经典推断是正确的方法，可用来就个体水平上的可能差异做出决定吗？

— chl 2010年

1

@chl是的，但是OP似乎试图推断成功的潜在可能性。测试将观察到的比例与理论分布进行比较，以确定给定置信水平是否存在差异。您正在测试任何形式的随机性，而不仅仅是采样误差随机性。

— 詹姆斯