当您不知道分布时如何采样


9

我是统计学的新手(一些初学者的Uni课程),并且想知道是否从未知分布中进行采样。具体来说,如果您不了解基本分布,是否有任何方法可以“保证”获得代表性样本?

举例说明:假设您试图弄清楚财富的全球分布。对于任何给定的个人,您都可以以某种方式找出他们的确切财富;但您无法“采样”地球上的每个人。因此,假设您随机抽样了n = 1000个人。

  1. 如果您的样本中不包括比尔·盖茨,您可能会认为不存在亿万富翁。

  2. 如果您的样本确实包括比尔·盖茨,您可能会认为亿万富翁比他们实际更为普遍。

无论哪种情况,您都无法真正分辨出亿万富翁的普通或罕见。您甚至可能根本无法判断是否存在任何内容。

对于这种情况,是否存在更好的采样机制?

您如何告诉先验使用哪种采样程序(以及需要多少个样本)?

在我看来,您可能必须“抽样”大量人口,以某种合理的确定性来了解地球上有多少普通或稀有的亿万富翁,这是由于基本的分布有点困难跟...共事。


1
在财富分配的情况下,很大程度上取决于目标是什么。例如,如果目的是估计使个人进入前10%,前20%等的财富水平,那么样本中是否包括亿万富翁就不是关键。但是,如果目的是估计前10%的财富在总财富中所占的比例,那么抽样处理亿万富翁的方式可能至关重要。这里的一般要点是,样本是否具有代表性始终与您要尝试做的事情有关。
亚当·贝利

真?开放性问题,答案是好的,仍然是近似值(有时更好,有时更糟)。这是一个开放的问题,也许是统计上的一个开放问题
Nikos M.

Answers:


9

我对您的说法提出异议,即“无论哪种情况,您都无法真正分辨出亿万富翁的普遍或稀有程度”。让F是人口中亿万富翁的未知部分。穿制服前F,后验分布 F1000 证明有0个亿万富翁的平局是Beta(1,1001)分布,如下所示: p(f | b = 0)

而后验分布 F1000 证明有1个亿万富翁的平局是Beta(2,1000)分布,如下所示: p(f | b = 1)

在这两种情况下,您都可以确定 F<0.01。您可能会认为不够精确。但是实际上,对于大小为1000的样本,0.01是非常精确的。您可能估计的其他大多数数量都将不那么精确。例如,男性的比例只能在大小0.1的范围内估算。


7

您可以做两件事(分别或组合执行)

模拟尾巴

一种是使用参数分布对分布的尾部建模。众所周知,幂律非常适合财富分配,因此您可以尝试帕累托分配。您可以通过最大似然来拟合该分布,即找到最能代表您的样本的参数。或者更好的是,您可以将贝叶斯先验放在参数上,然后计算整个后验。

不幸的是,幂定律对参数非常敏感,并且在样本中没有很多大数据点的情况下,指数会有很多不确定性。估计的亿万富翁人数将对此参数敏感,但比亿万富翁的平均财富要少得多,因此情况还算不错。

重要抽样

另一个是改变您收集样品的方式。假设您(应该)怀疑摩纳哥或苏黎世的人均亿万富翁多于摩加迪休。如果您知道这些城市中的每个城市的人口,则可以在希望看到更多亿万富翁的城市中收集更多的样本,而在其他城市中收集较少的样本。

可以这么说,苏黎世有40万人,摩加迪沙有140万人,我们希望对9000人进行投票。我们对百万富翁而不是亿万富翁的数量感兴趣。

一个无偏见的样本将选择苏黎世的2,000人和摩加迪沙的7,000人。但是,我们将通过从苏黎世采样七次以上来对样本进行偏倚。因此,我们将“假装”苏黎世有280万人,并在以后进行调整。这意味着我们将对苏黎世的6,000人进行投票,而不是摩加迪沙的2,000和4,000人。

假设我们在苏黎世样本中算出21个百万富翁,而在摩加迪沙样本中只算出1个。由于我们对苏黎世的采样率是7倍,因此我们只能算作3个百万富翁。

此过程将减少估计量的方差。它也可以与第一种方法结合使用,在这种情况下,将在拟合参数分布时针对重要性采样进行调整。


6

我认为一种好的采样方法是基于该系统的先前知识。在您的领域中,您了解可能影响抽样的潜在偏见。如果您不具备该知识,则可以从文学中获得知识。

在您的示例中,您知道有亿万富翁,他们可能会对您的抽样产生偏见。因此,您可以决定按教育程度,国家/地区,工作类型等对抽样进行分层。有多种选择。

让我们尝试另一个示例。您的目标是确定公园中老鼠种类的数量。在这个公园里,有森林和草地。根据文献,您知道森林里的老鼠比草地上的老鼠更多。因此,您可以根据此特征对抽样进行分层。还有其他可能的抽样程序,但我认为您的最佳信息将来自现有文献。

如果没有关于您的领域的文献?不太可能,但是在这种情况下,我将进行预研究,以了解采样时需要考虑哪些因素。


2

样品是否具有代表性与观察到的样品测量无关。如果每组观测单位与其他任何相同大小的单位具有相同的被选择概率,则该样本具有代表性。当然,除非您可以完整地枚举示例空间,否则这很难做到。假设您可以(例如,从人口普查数据中)获得该数据,则一个简单的随机样本将具有代表性。

无论如何获取样本,始终至少要考虑三个单独的错误源:

抽样错误:您有机会在代表性样本中包含比尔·盖茨。统计方法,尤其是置信区间的宽度等旨在解决此问题,前提是您对手头的分配有一些粗略的了解(例如,正态性,而财富分配肯定不具备)。

抽样偏差:样本不具有代表性。示例:比尔·盖茨(Bill Gates)有一个未列出的电话号码,因此您的电话调查永远无法到达他(除非您使用“随机数字拨号”之类的方法)。这是一个极端的例子,但是采样偏差非常普遍。一种常见的情况是在现场或方便地进行采样:您在餐厅对餐厅顾客进行采样,以了解他们是否喜欢这个地方,他们去过那里的频率以及是否打算返回。回访客户比一次回访的客户更有可能被抽样,并且这种类型的样本在他们的态度上可能存在严重偏差。

响应偏差:测量本身不准确。这可能是由于从仪表故障到有意识的谎言到量子效应(例如海森堡的不确定性原理)之类的任何原因。


该答案提供了有用的建议并涵盖了良好的基础。我想建议,“代表性”的表征可能过于严格,因为它不包括常见且有用的抽样形式(包括其他答案中特别提到的某些抽样形式),例如分层抽样,重要性抽样和系统抽样形式。当知道包括任何观测单位集的机会(因此可以用来产生无偏估计)但不一定对于给定大小的所有集合都恒定时,让一个样本具有代表性是不够的吗?
ub

@whuber“当知道包括任何观测单位集的机会时,让一个样本具有代表性是不够的……”:这是正确的,我应该编辑我的答案以确认分层抽样和重要性抽样。但是,系统的抽样是很简单的,链接和其他地方提供的建议完全是错误的。如果数据中存在系统模式,则随机化的起点不会消除偏差,而要做的只是确保您无法计算偏差。
user3697176 2014年

也许是迄今为止最好的答案(就直接针对统计点而言)
Nikos M.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.