如果您的随机样本显然没有代表性怎么办?


28

如果您随机抽取一个样本并且可以看到它显然不具有代表性,那会是怎么回事,就像最近的问题一样。例如,如果假设人口分布在0附近是对称的,而您随机抽取的样本具有不平衡的正负观测值,并且不平衡在统计上是显着的,那又会如何呢?您可以根据有偏见的样本对总体做出哪些合理的表述?在这种情况下,什么是合理的行动方针?在我们的研究中何时注意到这种不平衡情况是否重要?


2
迈克尔,如果我们使用统计显着性作为度量标准,那么这个问题可能会在20中发生一次。大多数情况下,我们不知道何时随机选择了一个非代表性样本,因为我们对种群的了解不足。但是,当我们确实了解一些人口信息,并且注意到这种异常时,我们该怎么办?
Joel W.

3
是的,最正确的做法是获取足够大的随机样本,如@MichaelChernick所写。但是,我的一位教授告诉我,他已通过蒙特卡洛模拟验证,当研究人员必须增加样本量时,仅向样本中添加统计单位并不是正确的做法,而是必须重复抽样。否则,统计数据可能会出现偏差(再次!)。
this.is.not.a.nick

4
@Michael,我不明白您的陈述为什么正确。不管样本大小如何,在5%的原假设下,小于0.05的p值都会出现。那么,更大的样本量将如何解决这个问题呢?在我看来,您的建议隐含地邀请读者混淆假设检验的规模和效力。
ub

2
@Michael,您是什么意思我们应该随机收集更多数据?我们是否希望我们随机抽取一个偏向另一个方向的样本?无论如何,我们还应该提多少个案例?您是否建议我们在开始时设置一个数字或使用停止规则?如果是停止规则,该规则会是什么样?最后,即使所得的较大样本没有统计学上的显着偏差,我们也知道它由两个样本组成,一个样本有偏差,一个样本没有偏差。您可以基于如此复杂的样本对总体做出哪些合理的陈述?
Joel W.

2
@Michael另一个结论是,高度重要,高度偏斜的样本表明抽样程序存在问题。如果是这样,则缺乏对称性将继续存在于较大的样本中。
ub

Answers:


7

MLS(使用重要性抽样)给出答案仅与您可以对分布所做的假设一样好。有限总体抽样范式的主要优势在于它是非参数的,因为它没有对数据的分布进行任何假设,从而无法对有限总体参数进行(有效)推断。

校正样品不平衡的一种方法称为后分层。您需要将样本分解为非重叠类(分层后),然后根据已知的总体数字对这些类进行加权。如果已知您的总体中位数为0,则可以对正向和负向观测值进行加权,以使它们的加权比例变为50-50:如果您的SRS不幸而有10个负向观测值和20个正向观测值,则可以负数的权重为15/10 = 1.5,正数的权重为15/20 = 0.75。

确实存在更细微形式的样本校准,您可以在其中校准样本以满足更一般的约束,例如,使连续变量的平均值等于特定值。尽管对称约束也可能可行,但很难使用。也许让·奥普索默(Jean Opsomer)对此有一些看法:他一直在为调查数据做很多核估计工作。


后分层如何在逻辑上或统计上与仅丢弃不平衡的样本并抽取另一个样本进行比较?(有时抽取样本是研究的劳动密集型部分,但有时是在抽取样本后才进行劳动密集型的,并且像许多实验研究一样,抽取样本所花费的精力相对较小。)
Joel W 。

2
我从来没有遇到过丢弃数据是最佳答案的情况,而且我从未在任何调查统计书中都看到过讨论它的情况。在大多数调查统计数据中,获取数据至少比以下任何数据处理和分析都要贵五倍(可能是一些廉价的网络调查中几乎没有数据收集的情况除外)。如果您处于实验世界中,那么您不应该将帖子标记为“采样”,而应使用“实验设计”。
StasK

可以使用随机样本而不是分层样本,因为在现实世界中存在许多可能的分层方法。在选择两个随机样本进行实验后,您可能会发现一些明显的不平衡。然后,您将陷入困境和艰难的境地:不平衡生活(例如,一组中的所有老年人,一组中的所有非母语人士,一组中的所有博士学位等),或画一张新样本,并削弱您所做的工作与所有统计技术假设之间的联系。后分层似乎是第二种。
乔尔·W

2

我是这里的初级会员,但我想说,如果知道样品明显没有代表性,并且您首先了解到无代表性的采样是如何产生的,那么丢弃并重新开始始终是最好的答案以及在第二次可能的情况下如何避免这种情况。

如果您可能最终还是坐同一条船,那么第二次采样会有什么好处?

如果再次进行数据收集没有意义或成本过高,则必须使用已有的内容,尝试通过分层,插补,更高级的建模或其他方式来弥补不代表性。您需要清楚地指出,您是以这种方式进行补偿的,为什么您认为这是必要的,以及为什么您认为它有用。然后在分析过程中一直处理由于补偿而产生的不确定性。(这会使您的结论不确定,对吗?)

如果不能这样做,则需要完全删除该项目。


如果您不知道为什么样本不具有代表性,您仍然有理由丢弃它并绘制一个新的随机样本吗?如果没有,为什么不呢?另外,假设您确实丢弃了第一个样本并绘制了第二个样本,由于丢弃了第一个样本,您可能基于第二个样本计算出的推断统计量是否不合适?例如,如果您订阅丢弃无代表性的样本,是否要更改统计检验所基于的抽样分布?如果是这样,您是否更容易或更难发现统计意义?
Joel W.

@韦恩好主意。
Subhash C. Davar

1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

您说样本没有偏见,任何尝试修复样本都会增加偏见。我建议收集样本的过程没有偏见,但实际上,样本是有偏见的,也许是严重有偏见的。有什么方法可以尝试解决可能会引入相对较少的额外偏差的已知大偏差?
Joel W.

1
为了消除术语的歧义,我认为偏见是对随机变量的期望的属性。换句话说,如果收集数据的过程没有偏见,那么样本也是如此。但是,该样本可能仍然是非典型的,并导致不想要的结论。解决此问题的任何常规方法都会引起偏差,因为您正在调整(无偏差)采样过程。偏差较小的方法可能是收集和使用新样本。稍微偏颇的方法会将这些新样本添加到旧样本中,但是由于您总共拥有更多样本,因此结果的可变性可能较小。
MLS 2012年

2
@Joel W.当您说样本有偏见时,您是什么意思?是基于样本的均值估计吗?任何样本估计值都将与真实均值不同,有些可能相距甚远。当随机采样时,这是由于方差而不是偏差。称样本有偏差是不对的,因为已知样本的分布看起来与总体分布有很大差异。在小样本中,由于某种原因或其他原因,许多样本看起来都没有代表性,但随机抽样并非有偏抽样。
Michael R. Chernick

1
@Michael,我同意我们必须承认并必须随机地生活。我问的是,当我们发现意外差异时,我们可能会合理地做些什么。如果这些样本与我们的研究相关,那么我们的随机样本竟然包含相对过多的年轻人或过多的蓝领工人等,该怎么办?更进一步,我们是否应该检查样本以查看它们是否以这种方式不平衡?在对样本进行进一步研究之前还是在对样本进行研究投入资源之后,是否注意到这一点是否重要?
Joel W.

1
协变量失衡非常重要。如果它存在于样本中,则可以使用回归模型对其进行调整。万斯·伯杰(Vance Berger)撰写了有关该主题的书,我以前可能已经在该网站上引用过。这是本书描述的亚马逊链接。 amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/...
迈克尔·Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.