如果您随机抽取一个样本并且可以看到它显然不具有代表性,那会是怎么回事,就像最近的问题一样。例如,如果假设人口分布在0附近是对称的,而您随机抽取的样本具有不平衡的正负观测值,并且不平衡在统计上是显着的,那又会如何呢?您可以根据有偏见的样本对总体做出哪些合理的表述?在这种情况下,什么是合理的行动方针?在我们的研究中何时注意到这种不平衡情况是否重要?
如果您随机抽取一个样本并且可以看到它显然不具有代表性,那会是怎么回事,就像最近的问题一样。例如,如果假设人口分布在0附近是对称的,而您随机抽取的样本具有不平衡的正负观测值,并且不平衡在统计上是显着的,那又会如何呢?您可以根据有偏见的样本对总体做出哪些合理的表述?在这种情况下,什么是合理的行动方针?在我们的研究中何时注意到这种不平衡情况是否重要?
Answers:
MLS(使用重要性抽样)给出的答案仅与您可以对分布所做的假设一样好。有限总体抽样范式的主要优势在于它是非参数的,因为它没有对数据的分布进行任何假设,从而无法对有限总体参数进行(有效)推断。
校正样品不平衡的一种方法称为后分层。您需要将样本分解为非重叠类(分层后),然后根据已知的总体数字对这些类进行加权。如果已知您的总体中位数为0,则可以对正向和负向观测值进行加权,以使它们的加权比例变为50-50:如果您的SRS不幸而有10个负向观测值和20个正向观测值,则可以负数的权重为15/10 = 1.5,正数的权重为15/20 = 0.75。
确实存在更细微形式的样本校准,您可以在其中校准样本以满足更一般的约束,例如,使连续变量的平均值等于特定值。尽管对称约束也可能可行,但很难使用。也许让·奥普索默(Jean Opsomer)对此有一些看法:他一直在为调查数据做很多核估计工作。
我是这里的初级会员,但我想说,如果您知道样品明显没有代表性,并且您首先了解到无代表性的采样是如何产生的,那么丢弃并重新开始始终是最好的答案以及在第二次可能的情况下如何避免这种情况。
如果您可能最终还是坐同一条船,那么第二次采样会有什么好处?
如果再次进行数据收集没有意义或成本过高,则必须使用已有的内容,尝试通过分层,插补,更高级的建模或其他方式来弥补不代表性。您需要清楚地指出,您是以这种方式进行补偿的,为什么您认为这是必要的,以及为什么您认为它有用。然后在分析过程中一直处理由于补偿而产生的不确定性。(这会使您的结论不确定,对吗?)
如果不能这样做,则需要完全删除该项目。