总体和样本之间有什么区别?


Answers:


36

人口是研究对象的集合。例如,男人的平均身高。这是一个假设的人口,因为它包括所有已经活着,还活着并将将来生活的人。我喜欢这个示例,因为它表明了我们作为分析人员选择希望研究的人群的观点。通常,不可能对整个人口进行调查/测量,因为并非所有成员都是可观察到的(例如,将来会存在的人)。如果可以枚举整个人口,那么这样做通常会很昂贵,并且会花费大量时间。在上面的示例中,我们有一个人口“人”和一个感兴趣的参数,即他们的身高。

取而代之的是,在一定条件下,我们可以采用该总体的一个子集作为样本,并使用该样本得出有关所研究总体的推论。因此,我们可以测量人口样本中男性的平均身高(我们称之为统计数据),并以此来推断人口中感兴趣的参数。这是一个推断,因为在基于样本得出总体结论时会涉及一些不确定性和不准确性。这很明显-我们样本中的成员少于人口总数,因此我们丢失了一些信息。

有多种选择样本的方法,对此的研究称为抽样理论。常用的方法称为简单随机采样(SRS)。在SRS中,总体的每个成员都有被包括在样本中的相同概率,因此称为“随机”。还有许多其他采样方法,例如分层采样,聚类采样等,各有优缺点。

重要的是要记住,我们从总体中抽取的样本只是大量潜在样本中的一个。如果十名研究人员都在研究同一人口,抽取自己的样本,那么他们可能会得到不同的答案。回到我们前面的例子,十位研究人员中的每位可能得出不同的人平均身高,即所讨论的统计量(平均身高)随样本的不同而变化-它具有称为抽样分布的分布。我们可以使用此分布来了解我们的总体参数估计中的不确定性。

已知样本平均值的采样分布是正态分布,其标准偏差等于样本标准偏差除以样本大小。因为这很容易与样本的标准偏差相混淆,所以更常见的是将样本分布的标准偏差称为标准误差


7
使用“所有人”作为人口不是一点意义吗?我的意思是,关于智人有多大,或者尼安德特高跷是否是一个单独的物种,甚至没有共识,更不用说使用高智者的石制工具的男性是否算作“男人”了。大概相同的问题将来也将面临我们。
naught101

在最后一段中,我认为应该稍有改动,应该将其读为……“等于样本标准偏差除以样本大小的[平方根] ”,以参考标准误差
安东尼·帕雷拉达

13

总体是您感兴趣的整套值或个人。样本是总体的子集,是您在估计中实际使用的一组值。

因此,例如,如果您想知道中国居民的平均身高,那就是您的人口,即中国的人口。问题是,这是一个很大的数字,您将无法为那里的每个人获取数据。因此,您绘制了一个样本,也就是说,您得到了一些观察结果或中国某些人的身高(一部分人口,即样本),并以此为基础进行了推断。


好答案。我认为您应该进一步理解“基于此推断”。这是我问题的第二部分。
巴尔的摩

嗯...我不是很明白你的意思是什么通用变量和统计量...哦,你的意思是说如果你有总体方差,那么你就使用z分布;如果你只有样本方差,你就意味着t分布。而且样本量小?遵循这些原则?
维维

我得到的是平均值和标准偏差是与总体相关的参数,但是它们是通过样本平均值((1 / N)* \ sum(x_i))和样本标准偏差((1 /( N-1))* \ sum(x_i-x ^ bar)^ 2)。
巴尔蒂马克

8

人口是研究组中的一切。例如,如果您正在研究苹果股票的价格,则它是历史,当前甚至所有未来的股票价格。或者,如果您经营一个鸡蛋工厂,那便是工厂生产的所有鸡蛋。

您不必总是采样并进行统计检验。如果您的人口是您的直系亲属,那么您就不需要抽样,因为人口很小。

采样之所以流行,有多种原因:

  • 它比人口普查便宜(对整个人口进行抽样)
  • 您无权访问将来的数据,因此必须采样过去
  • 您必须通过测试销毁某些物品,而又不想全部销毁(例如鸡蛋)

2

当我们想到“人口”一词时,我们通常会想到城镇,地区,州或国家/地区中的人们及其各自的特征,例如性别,年龄,婚姻状况,种族成员,宗教信仰等。在统计中,“人口”一词的含义略有不同。统计数据中的“人群”包括我们正在研究或收集的有关已定义组的所有成员,以进行数据驱动的决策。

一部分人口称为样本。它是人口的一部分,一部分,一部分及其所有特征。样本是经过科学抽取的组,实际上具有与总体相同的特征-如果是随机抽取的。(您可能难以相信,但这是真的!)

随机抽取的样本必须具有两个特征:

*每个人都有平等的机会被选为您的样本;和,

*选择一个人与选择另一个人无关。

随机抽样的最大好处是,您可以将其归纳为您感兴趣的人口。因此,如果您对社区中的500户家庭进行抽样,则可以将其归纳到居住在那里的50,000个家庭。如果您将500人口中的某些人口特征与50,​​000人口进行匹配,您会发现它们惊人地相似。


2
如果正确解释,这基本上是正确的。我担心某些读者可能会误以为简单的随机样本替换后(这是您描述的那种随机样本;还有其他种类)正确地再现了人口的所有特征。实际上,他们很少这样做。随机抽样的要点在于,样本特征与总体特征之间的(不可避免的)差异可以归因于随机选择过程。
ub

0

总体包括一组数据中的所有元素。样本包含总体中的一个或多个观察值。BOA,A.(2012,17)


2
当“数据集”的所有元素都被视为总体时,该数据集称为总体人口普查。极少的数据集是人口普查。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.