Answers:
非随机样本中的随机化仍然可以通过随机变异合理地解释其效果。
例如,假设我们有一个人口,其中有两个未被识别的亚组(特征有些不同*),它们的大小大致相等,但是您的样本是非随机的,分为80/20。让我们想象两个相等大小的治疗组。随机化(至少在样本量合适的情况下)将倾向于在每组中接近80/20的比例,因此治疗效果是由于治疗引起的,而不是异种基团分配给治疗的分配不均。
*得出不同的基准均值
当您想将推断扩展到某些目标人群而不是样本所代表的对象(自选择器)时,就会出现问题。这需要您可能没有证据的假设/论据(例如假设说治疗差异对所有人口子集都是一致的)。
对于类似的情况,可以想象与标准治疗和安慰剂相比,仅在男性身上测试一种高血压药物。假设将男性适当地随机分为治疗组。从某种意义上说,治疗效果是真实的,因为它确实描述了男性的效果。当试图将这种推论推广给女性时,困难就会来了。
因此,如果对这些人员进行适当的安排,并且除招募人员以外进行随机分配,那么所观察到的显着效果将是表面上的效果,但这将适用于您实际采样的内容,不一定适用于您想要的目标-跨越两者之间的鸿沟需要仔细的论证;这种论点经常不存在。
当我还是一个学生时,对心理学学生进行心理学实验是很普遍的,他们被要求自愿参加一定时间的此类实验(情况可能仍然如此,但我没有与心理学家进行定期接触谁再做实验)。通过对治疗的随机化,这些推论可能是有效的(取决于所做的事情),但适用于本地自选心理学专业的大学生(因为他们通常选择要参加的实验),这些人与广泛人群的随机样本。
因为众所周知,随机化解决了自选问题,所以我想知道非随机样本的随机化是否真的改变了一切。
简而言之,没有。这样想:您的骨灰盒里有100个黑球和100个白球。您从中采样90个黑球和10个白球。抽样随机从这个子样本不会让你在瓮本身偏见的推理。
而且,我们应该基于大量自选样本对所有这些心理实验做些什么?
人们同意非随机采样是一个问题。但是,问题的多少也与您感兴趣的机制的“理论”有关。如果您的假设所涉及的机制对于所有人类来说基本上都是相同的(即浸入冰冷时会感觉到冰冻的感觉)水),那么非随机选择就没那么重要了。不幸的是,这通常不是我们感兴趣的东西。
有一种用于解决您提到的问题的技术,称为Bootstrapping。自举是一种方法,您可以通过替换实际样品池中的图纸来生成新的合成样品。 然后,您可以对每个合成样本池进行统计,并比较各组之间的统计。
由于这些合成样本来自已知的分布,因此具有强大的优势,允许您在统计信息中使用大量其他工具。然后,您可以确定您的估算器在处理这些综合案例方面的表现如何。如果您发现所有合成样本的估计量都能很好地收敛到相同的结果,则自举假设可让您推断出,将估计量应用于完整样本后,可以为未知总体提供良好的估计量。另一方面,如果您发现估算器产生的结果与合成样本集和合成样本集有很大不同,则应该推断出,将估算器应用于完整样本时,可能无法为未知总体提供非常好的估算。
这种自举方法可用于验证非随机样本的随机化是否足够。当然,它不能证明这一点,但是它被用作通过仔细检查随机抽样足够随机的假设来增强可信度的工具。