样本均值的抽样分布如何近似于总体均值?


16

我尝试学习统计信息是因为我发现它是如此普遍,以至于如果我对它的理解不正确,它就会禁止我学习一些东西。我很难理解样本均值的抽样分布这一概念。我不明白某些书籍和网站对它的解释方式。我想我有一个了解,但不确定它是否正确。以下是我试图理解它的尝试。

当我们谈论某种呈正态分布的现象时,通常(并非总是)涉及人口。

我们希望使用推论统计来预测有关某些人口的某些信息,但是并没有所有的数据。我们使用随机抽样,大小为n的每个样本被选择的可能性均等。

因此,我们抽取大量样本,假设为100,然后根据中心极限定理,这些样本的均值分布将近似为正态。样本均值的平均值将近似于总体均值。

现在我不明白的是,很多时候您会看到“一个100个人的样本……”我们是否需要10个或100个100个人的样本来近似均值人口?还是我们可以抽取一个足够大的样本(比如说1000),然后说均值将近似于总体均值?还是我们从1000人中抽取了1000个人,然后从100个人中随机抽取了100个人中的100个人,然后将其用作近似值?

是否采取足够大的样本来近似(几乎)均值始终有效?人口甚至需要正常工作才能正常工作吗?

Answers:


9

我认为您可能会混淆均值的预期抽样分布(我们将基于单个样本进行计算)与(通常是假设的)模拟过程(如果我们多次从同一总体中重复抽样)会发生什么(通常是假设的)。

对于任何给定的样本量(甚至n = 2),我们可以说样本均值(来自两个人)估计总体均值。但是,估计的准确性(即,我们根据样本数据估计总体均值所做的工作做得多么好,反映在均值的标准误中)将比如果我们拥有20或200时差我们样本中的人。这是相对直观的(较大的样本可提供更好的估计精度)。

然后,我们将使用标准误差来计算置信区间,该置信区间(在这种情况下)基于正态分布(由于小数样本中的总体标准偏差经常被低估,因此我们可能会在小样本中使用t分布)。小样本,导致过于乐观的标准误。)

在回答您的最后一个问题时,不,我们并非总是需要正态分布的总体来应用这些估计方法-中心极限定理表明,均值的采样分布(再次由单个样本估计)即使基础总体具有非正态分布,也要遵循正态分布。这通常适用于“更大”的样本量。

话虽如此,当您从一个非正态总体中进行抽样时,即使该平均值的抽样分布被认为是可靠的,该平均值也可能不是适当的汇总统计量。


所以我本质上是不是太想了解这种东西是如何工作的这一理论基础的呢?这里真正有趣的是置信区间吗?换句话说,如果我想发表一项研究,比方说美国成年人的平均睡眠时间,并且我抽取了5,000个样本,而我的置信区间为99.9%,则平均值在6.46和6.54之间,那么我可以继续发表我的研究,并“自信地”说美国成年人的平均睡眠时间为6.5个小时?
mergesort 2013年

2
您在哪里说:“ 自信地说”美国成年人的平均睡眠时间为6.5个小时 ”。好吧,不,您可以完全放心,实际上平均不是 6.5小时。您只能确信它已经接近 6.5个小时,或者您可以确信它是“ 6.5小时到最近的5分钟”,或类似的数字。只有范围将具有与之相关的一定置信度。
Glen_b-恢复莫妮卡

1
@Glen_b成为问题的核心-我们永远不能说我们有信心我们已经正确估计了人口价值,而是对估计过程的准确性有了一些了解。
James Stanley

@angrymonkey我认为获得(模拟)重复采样方法基础的概念仍然有用。另外,对于估计均值,不需要“巨大”样本量-均值标准误差的公式是sample std deviation / square root(n)-n部分的平方根告诉我们,随着样本量的增加,对于固定增量的估计精度回报将递减变得更大(例如,将样本中的10人增加到20人比从210人增加到220人提高了估计准确性。)
James Stanley

太好了。非常感谢您的帮助。因此,配置项只允许我们说我95%的水平确定普通人每晚的睡眠时间在6.45至6.56小时之间?那为什么有些文章为什么要做出这些明确的主张,例如普通人每天看4.5小时电视呢?当然,置信区间
大约

10
  • σ2/nnn
  • 如果您采取几个独立的样本,则每个样本均值将是正常的,均值的均值将是正常的,并且趋向于真实均值。
  • 如果您的样本确实来自同一分布(例如100个样本,每个样本10个),您将做出相同的推论,就好像您抽取了一个大样本1000。不能忽略;请参见“随机块设计”。)
  • ñ
  • 如果您采取100个样本(每个样本10个样本),则样本均值的分布将比原始数据看起来更正态,但比整体均值的分布更不正态。
  • 进行大量采样也会使您接近常态。
  • 如果要估计总体平均值,那么从1000个样本中抽取10个样本或从10个样本中抽取100个样本,在理论上没有什么区别。
  • 但是在实践中,抽样理论的人们可能会因为聚类,分层和其他问题而将样本拆分。然后,他们在进行估算时会考虑采样方案。但这确实是另一个问题。

在大多数教科书中,它们将带您了解样本均值的样本分布的概念。从本质上讲,这告诉您:“嘿,看一下,如果您抽样很多,那通常是正常的,并且将接近总体均值”。然后他们告诉您,如果您抽取足够多的样本,则只能抽取一个样本。样本的抽样分布是否意味着使您相信可以提取一个大样本?换句话说,理解它的目的是什么?只是为了帮助您掌握大量样本背后的直觉吗?忽略了采样theo的想法
mergesort 2013年

我认为@“ James Stanley”回答得很好。在任何实际情况下,您都需要采样,然后计算均值,这就是您的估计值。
Placidia

1

平均值的采样分布是给定大小的所有样本的分布。采样距离的平均值等于总体的平均值。当我们谈论给定大小的样本的均值采样距离时,我们并不是在谈论一个样本甚至一千个样本,而是所有样本。


0

平均值的采样距离与置信区间无关。那是另一个概念。对于采样距离,总体可以是正常的,也可以是不正常的。a)如果pop是正常的,则对于任何样本量,均值的采样距离将是正常的。b)如果pop不正常,则1)除非样本大小为30或更大,否则不能将平均采样距离视为正常。然后,中心极限定理告诉我们采样距离可以认为是正常的。

您谈论预测。预测也与此无关。您在samp dist中插入了太多。采样距离就是所有样本,然后取平均值。所有这些样本的均值mu sub x bar等于总体均值mu和标准设备采样距离dist,sigma sub x bar = sigma除以n的平方根。(我们不会谈论有限的弹出校正因子。获取有关面值的统计信息。不要过多地了解概念。拳头了解基本概念。

PS均值的samp dist没什么可做的


我想知道这个答案是否可以与您的第一个答案结合使用,而不是作为另一个答案输入。我们通常希望您每个线程有1个答案。(尽管有例外。)您可以通过单击左下角的灰色“编辑”,为现有答案添加材料或进行更改。
gung-恢复莫妮卡

0

我一直在思考大数据问题,并在今天早上看了其中的一些帖子。我根本不认为这是个小问题,而是将分析1000个数据作为一组与分析10个数据集中的100个之间的区别。从理论上讲,如果零假设是正确的,则数据为iid,则不会区别。但是,如果仅取1000个数据的平均值并引用估计的平均值和相关的标准误差,则根本无法解决数据中的聚类和模式。

通过查看关于stackexchange和Wikipedia的某些页面,我得出的结论是,大数据可以使人们显而易见。如果总体上有任何有趣的特征,则大数据集将使它们一天之内清晰可见。因此,如果我有一个非常大的数据集,可以从视觉上看,那么在不首先寻找非常明显的功能的情况下,我将不会采取简单的汇总措施。从我最早的统计推论课程开始,我被教导要首先查看数据的图形和可视化。我不能足够强调。如果数据集太大,以至于无法在屏幕上观看,那么应该以人类可读的分辨率对它进行子采样。


请不要在您的帖子上签名-这是帖子右下方的用户名所针对的。
Glen_b-恢复莫妮卡2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.