Answers:
人口是研究对象的集合。例如,男人的平均身高。这是一个假设的人口,因为它包括所有已经活着,还活着并将将来生活的人。我喜欢这个示例,因为它表明了我们作为分析人员选择希望研究的人群的观点。通常,不可能对整个人口进行调查/测量,因为并非所有成员都是可观察到的(例如,将来会存在的人)。如果可以枚举整个人口,那么这样做通常会很昂贵,并且会花费大量时间。在上面的示例中,我们有一个人口“人”和一个感兴趣的参数,即他们的身高。
取而代之的是,在一定条件下,我们可以采用该总体的一个子集作为样本,并使用该样本得出有关所研究总体的推论。因此,我们可以测量人口样本中男性的平均身高(我们称之为统计数据),并以此来推断人口中感兴趣的参数。这是一个推断,因为在基于样本得出总体结论时会涉及一些不确定性和不准确性。这很明显-我们样本中的成员少于人口总数,因此我们丢失了一些信息。
有多种选择样本的方法,对此的研究称为抽样理论。常用的方法称为简单随机采样(SRS)。在SRS中,总体的每个成员都有被包括在样本中的相同概率,因此称为“随机”。还有许多其他采样方法,例如分层采样,聚类采样等,各有优缺点。
重要的是要记住,我们从总体中抽取的样本只是大量潜在样本中的一个。如果十名研究人员都在研究同一人口,抽取自己的样本,那么他们可能会得到不同的答案。回到我们前面的例子,十位研究人员中的每位可能得出不同的人平均身高,即所讨论的统计量(平均身高)随样本的不同而变化-它具有称为抽样分布的分布。我们可以使用此分布来了解我们的总体参数估计中的不确定性。
已知样本平均值的采样分布是正态分布,其标准偏差等于样本标准偏差除以样本大小。因为这很容易与样本的标准偏差相混淆,所以更常见的是将样本分布的标准偏差称为标准误差。
总体是您感兴趣的整套值或个人。样本是总体的子集,是您在估计中实际使用的一组值。
因此,例如,如果您想知道中国居民的平均身高,那就是您的人口,即中国的人口。问题是,这是一个很大的数字,您将无法为那里的每个人获取数据。因此,您绘制了一个样本,也就是说,您得到了一些观察结果或中国某些人的身高(一部分人口,即样本),并以此为基础进行了推断。
当我们想到“人口”一词时,我们通常会想到城镇,地区,州或国家/地区中的人们及其各自的特征,例如性别,年龄,婚姻状况,种族成员,宗教信仰等。在统计中,“人口”一词的含义略有不同。统计数据中的“人群”包括我们正在研究或收集的有关已定义组的所有成员,以进行数据驱动的决策。
一部分人口称为样本。它是人口的一部分,一部分,一部分及其所有特征。样本是经过科学抽取的组,实际上具有与总体相同的特征-如果是随机抽取的。(您可能难以相信,但这是真的!)
随机抽取的样本必须具有两个特征:
*每个人都有平等的机会被选为您的样本;和,
*选择一个人与选择另一个人无关。
随机抽样的最大好处是,您可以将其归纳为您感兴趣的人口。因此,如果您对社区中的500户家庭进行抽样,则可以将其归纳到居住在那里的50,000个家庭。如果您将500人口中的某些人口特征与50,000人口进行匹配,您会发现它们惊人地相似。