Answers:
对此可能会有不同的意见,但我会将总体数据视为样本并假设一个假设总体,然后以通常的方式进行推断。考虑这一点的一种方法是,有一个底层的数据生成过程负责收集的数据,即“人口”分布。
在您的特定情况下,这可能更有意义,因为您将来会有很多同类。那么您的人口确实是那些甚至在将来都参加考试的队列。这样,如果您拥有超过一年的数据,则可以考虑基于时间的变化,或者尝试通过错误模型考虑潜在因素。简而言之,您可以开发功能更强大的丰富模型。
实际上,如果您确实很乐观,那么您可以拥有全部人口,甚至无需进行统计。然后,您确切地知道差异有多大,并且没有任何理由再进行测试。一个典型的错误是将统计显着性用作“相关”显着性。如果您对总体进行抽样,则差异是实际的。
另一方面,如果您重新提出假设,则候选者可以被视为可能候选者的样本,这将允许进行统计检验。在这种情况下,通常要测试男性和女性在手头测试中是否有所不同。
正如ars所说,您可以使用多年的测试并将时间作为随机因素。但是,如果您的兴趣确实在于在此特定测试上这些候选项之间的差异,则您不能使用泛化,并且测试是毫无意义的。
传统上,统计推断是在概率样本和抽样误差的本质中进行的。该模型是检验重要性的基础。但是,还有其他方法可以模拟系统性的机会偏离,结果表明我们的参数(基于采样)测试倾向于很好地近似于这些选择。
假设的参数检验依赖于抽样理论来估计可能的误差。如果从总体中抽取给定大小的样本,则有关样本系统性的知识将使检验和置信区间有意义。对于总体而言,抽样理论根本就没有意义,传统意义上的检验也没有意义。推论是没有用的,没有什么可推论的,只有东西...参数本身。
有些人通过吸引当前人口普查代表的超级人口来解决这个问题。我发现这些吸引力令人信服-参数测试以概率抽样及其特征为前提。给定时间的人口可能是随时间和地点的较大人口的样本。但是,我看不出有任何方法可以合理地论证这是一个随机样本(或更普遍地说是概率的任何形式)。如果没有概率样本,则样本理论和传统的测试逻辑根本不适用。您也可以根据方便性示例进行测试。
显然,要在使用总体时接受测试,我们需要在抽样程序中放弃这些测试的基础。一种方法是识别样本理论检验(例如t,Z和F)与随机化程序之间的紧密联系。随机化测试基于手头的样本。如果我收集有关男性和女性收入的数据,则概率模型和我们误差估计的基础是实际数据值的重复随机分配。我可以将观察到的跨组差异与基于这种随机化的分布进行比较。(顺便说一下,我们一直在实验中一直这样做,从总体模型中随机抽样很少是合适的)。
现在,事实证明样本理论检验通常是随机检验的良好近似。因此,最终,我认为来自人群的测试在此框架内是有用且有意义的,并且可以帮助区分系统差异和机会差异,就像基于样本的测试一样。到达那里的逻辑有些不同,但是对测试的实际意义和使用没有太大影响。当然,直接使用随机化和置换测试可能会更好,因为我们所有的现代计算能力都可以轻松使用它们。
假设结果表明候选人在性别方面有所不同。例如,完成测试的人的比例如下:女性40%,男性60%。显而易见,40%与60%不同。现在重要的是决定:1)您感兴趣的人群;2)您的观察与感兴趣的人群之间的关系。以下是有关这两个问题的一些详细信息:
如果您感兴趣的人群只是您所观察到的候选人(例如,2016年申请大学的100名候选人),则无需报告统计显着性检验。这是因为您的兴趣人群已被完全采样...您所关心的就是拥有完整数据的100个候选对象。也就是说,60%等于40%。这个问题的答案是,应用于该计划的100名人口中是否存在性别差异?这是一个描述性问题,答案是肯定的。
但是,许多重要的问题是关于在不同环境中会发生什么。也就是说,许多研究人员想提出过去的趋势,以帮助我们预测(然后计划)未来。这方面的一个示例性问题是:候选人的未来测试在性别方面可能会有所不同吗?这样,感兴趣的人群比上面的方案1中的人群要广。此时,要问的一个重要问题是:您观察到的数据是否可能代表未来趋势?这是一个推论性问题,根据原始海报提供的信息,答案是:我们不知道。
总之,您要报告的统计信息取决于您要回答的问题的类型。
关于基础研究设计的思考可能最有帮助(请在此处尝试:http : //www.socialresearchmethods.net/kb/design.php)。如果您想要更多的高级信息,那么考虑超级人口可能会有所帮助(这里的文章可能会有所帮助:http : //projecteuclid.org/euclid.ss/1023798999#ui-tabs-1)。
如果您考虑要衡量的是一个随机过程,那么统计检验是相关的。例如,掷硬币十次以查看它是否公平。您得到6头和4尾–您的结论是什么?