为什么几个(如果不是全部)参数假设检验假设为随机抽样?


12

像Z,t和其他几种测试都假定数据基于随机采样。为什么?

假设我正在做实验研究,我在乎内部有效性而不是外部有效性。因此,如果我的样本可能有点偏见,那很好,因为我已经接受了不推断整个人群的假设的结论。并且分组仍将是随机的,即,为了方便起见,我将选择样本参与者,但我将它们随机分配给不同的组。

为什么我不能忽略这个假设?


如果采样技术引入了偏差,那么它不是“随机”的。如果它没有引入任何偏差,那么它就是“随机的”(对于随机性的某种定义;-)。我有一些采样方案,仅需每7个采样就可以创建一个与反采样匹配的采样大小。但是,我知道该选择没有特殊方面,因此可以认为是非随机采样过程的实际上仍然是随机的。这与在彩票中选择球1,2,3,4,5,6相同。和其他序列一样随机。
菲利普·奥克利

1
@PhilipOakley:在彩票中选择1、2、3、4、5、6球可以获得与其他任何选择相同的中奖机会,但是会降低预期的中奖金额,因为您更有可能必须与其他人分享奖金有同样的想法
亨利

1
如@Philip所描述的那样,系统采样通常被分析为好像生成了简单的随机样本一样,但是存在陷阱。例如,如果您要每天测量制造过程并每隔七次测量抽样一次,那么您的结果就会与星期几的影响相混淆,因为(显然)您将在同一天进行采样每周。在处理非随机样本时,您需要更加努力地思考和解决这些细微问题。
whuber

1
@whuber,绝对。必须对这些事情认真(广泛地)思考!!在我的情况下,我有几个小时的视频,有数百个事件,并且之间有很长的间隔,因此需要减少非事件集的数据大小,以进行简单的逻辑回归(每个帧独立地考虑,帧之间的变化很小),所以丢弃大量非事件帧是合理的。时间序列方面是分开考虑的。
菲利普·奥克利

1
@Philip有趣的是,几乎在您撰写有关随机性的评论的同时,NIST发布了一份新闻稿,声称确实如此。一个账户出现在今天(2018年4月4日)的《自然》杂志上
whuber

Answers:


18

如果您没有对比实际样本更广泛的群体进行任何推断,那么首先就不会应用统计检验,也不会出现“偏见”问题。在这种情况下,您只需计算样本的描述性统计信息即可。同样,在这种情况下,模型“有效性”也没有问题-您只是观察变量并记录其值,以及对这些值的各个方面的描述。

一旦决定超出样本范围,可以推断出更大的群体,那么您将需要统计数据,并且需要考虑诸如抽样偏差之类的问题。在此应用程序中,随机抽样将成为有助于获得可靠性的有用属性。广泛兴趣的推论。如果您没有随机抽样(并且您不知道基于总体的样本概率),那么就很难/不可能做出关于总体的可靠推断。


5

在真正的科学研究中,很少有来自真正随机抽样的数据。数据几乎总是方便样本。这主要影响您可以概括为的总体。就是说,即使它们是方便样本,但它们确实来自某个地方,您只需要弄清楚其中的隐含位置和局限性即可。如果您真的相信自己的数据不能代表任何事情,那么您的研究就没有任何意义,但是那可能不正确1。因此,通常合理的做法是将您的样品视为从某个地方抽取并使用这些标准测试,至少是在套期或合格的意义上。

但是,存在另一种测试哲学,认为我们应该远离这些假设以及依赖于这些假设的测试。图基倡导了这一点。相反,大多数实验研究被认为(内部)有效,因为研究单位(例如患者)被随机分配到了手臂上。鉴于此,您可以使用置换测试,大多数情况下仅假设随机化已正确完成。对此过多担心的反驳是,置换测试通常会显示与相应的经典测试相同的东西,并且执行的工作更多。同样,标准测试也可以接受。

1.有关这些方面的更多信息,在这里阅读我的答案可能会有所帮助:确定研究中的总体和样本


3

像Z,t和其他几种这样的检验都是基于相关统计信息的已知抽样分布的。通常使用的那些采样分布是针对从随机样本计算出的统计量定义的。

有时可能会为非随机采样设计一个相关的采样分布,但是总的来说这是不可能的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.