为什么在非参数统计中联系如此困难?


14

我的非参数文本《实践非参数统计》经常为期望,方差,检验统计等提供清晰的公式,但包括警告,只有在我们忽略联系时才有效。在计算Mann-Whitney U统计量时,建议您在比较较大的对数时扔掉配对。

我知道这种联系并不能真正告诉我们哪个人口更大(如果这就是我们感兴趣的人口),因为两个群体都不比另一个更大,但是在开发渐近分布时似乎并不重要。

那为什么在某些非参数过程中如此处理联系呢?有没有办法从关系中提取任何有用的信息,而不是简单地将它们扔掉?

编辑:关于@whuber的评论,我再次检查了我的消息来源,并且某些过程使用了平均等级,而不是完全放弃绑定值。尽管在保留信息方面似乎更明智,但在我看来,它也不够严格。但是,问题的精神仍然存在。


您是说实用非参数统计告诉您在捆绑数据时“ 丢弃 ”数据吗?您可能会误解其建议吗?你能准确引用吗?
ub

是的,我可能会误解建议。来自同一作者:jstor.org/stable/2284536 “ Wilcoxon建议首先从数据中删除零,并对减少的数据集进行测试。如果没有非零关系,则此过程将有条件地(给定数目)零分布)自由分布测试,并可以使用现有的临界值精确表。因此,大多数非参数统计书籍都将Wilcoxon的方法纳入了测试描述中”
Christopher Aden

诚然,这是参考Wilcoxon Signed Rank检验,但我听说其他NP程序中也使用了类似的建议。关于曼恩·惠特尼的例子,我回过头来检查了这本书,你是正确的,我错了。对于Mann-Whitney,这本书建议对并列值的等级进行平均,即:如果等级6和7被并列,则每个等级的值为6.5。
克里斯托弗·亚丁

2
谢谢。有严格的方法来说明受约束的群体。当处理被检查(但连续)的数据时,它们很重要,因为被检查的值通常构成一个较大的关联组。对于Kruskal-Wallis和Wilcoxon秩和检验,请参阅RO Gilbert的第18章,“用于环境污染监测的统计方法。”涉及绑定数据的公式可能会很复杂,但是在某些情况下(例如KW测试),您需要做的所有事情被用于计算行列的方差分析表。
whuber

Answers:


14

关于非参数的大多数工作最初都是在假设存在潜在的连续分布的情况下完成的,在这种分布中,联系是不可能的(如果足够精确地测量)。然后,该理论可以基于订单统计信息的分布(无联系的情况更简单)或其他公式。在某些情况下,该统计数据近似正常,这使事情变得非常容易。当由于数据被舍入或自然离散而引入联系时,则标准假设不成立。在某些情况下,近似值可能仍然足够好,但在另一些情况下却不行,因此通常最简单的方法是发出警告,指出这些公式不适用于联系。

存在一些用于标准非参数测试的工具,这些工具可以计算出存在联系时的确切分布。R的确切的RankTests包是一个示例。

处理关系的一种简单方法是使用随机测试,例如置换测试或自举。这些无需担心渐近分布,而是按原样使用数据,联系以及所有联系(请注意,在联系很多的情况下,即使这些技术的功效也可能很低)。

几年前有一篇文章(我曾在《美国统计学家》杂志上以为,但我没有找到),它讨论了联系的概念以及您可以用它们做的一些事情。有一点是,这取决于您问的是什么问题,在优胜劣汰与非劣败劣汰的测试中,如何处理关系。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.