拟合优度检验:关于安德森–达林检验和克拉梅尔–冯·米塞斯准则的问题


10

当我参加安德森–达林(Anderson-Darling)测试克拉姆-冯·米塞斯(Cramér-vonMises)准则时,我正在阅读网页上的拟合优度测试。

到目前为止,我明白了。似乎仅基于不同的加权函数,安德森-达林检验和克拉姆-冯·米塞斯准则相似。此外,还有一种名为Watson检验的Cramér–von Mises准则的变体。w

基本上我有两个问题

  1. 关于这两种方法的Google结果并不多。他们仍然是最先进的吗?或已经被一些更好的方法所取代?

    令人惊讶的是,根据有关Shapiro-Wilk,Kolmogorov-Smirnov,Lilliefors和Anderson-Darling检验的功率比较的这篇论文,AD的表现相当不错。总是比Lilliefors和KS更好,并且非常接近SW测试,后者是专为正态分布而设计的。

  2. 这种测试的置信区间是多少?

    对于AD,CM和Watson测试,我看到了在Wiki页面上定义的测试统计信息变量,但没有找到置信区间。

    对于KS测试而言,事情变得更加简单:在Wiki页面上,置信区间由定义,该值由的累积分布函数定义。KαK

Answers:


4

贴合度不可能有任何最新技术(例如,将不存在跨通用替代方案的UMP测试,甚至没有什么可以接近的-甚至在某些情况下,甚至广受赞誉的综合测试也具有强大的功能)。

通常,选择测试统计信息时,您会选择最重要的偏差类型,以检测并使用适合该工作的测试统计信息。一些测试在各种有趣的选择上都做得很好,使其成为不错的默认选择,但这并不能使它们成为“最新技术”。

安德森·达令(Anderson Darling)仍然很受欢迎,并且有充分的理由。如今,Cramer-von Mises检验的使用率大大降低了(令我惊讶的是,它通常比Kolmogorov-Smirnov更好,但比Anderson-Darling更为简单-并且在“中间”差异方面通常比它具有更好的功能)分布)

所有这些测试都受某些替代方案的偏见困扰,很容易找到安德森·达林(Anderson-Darling)做得比其他测试差得多(非常可怕)的情况。(正如我建议的那样,这比“测试课程”更重要。不幸的是,通常很少考虑这个问题(最能弥补我最大的偏差的是什么?)。

您可能会在以下一些帖子中找到一些价值:

Shapiro–Wilk是最好的正态性检验吗?为什么它会比Anderson-Darling等其他测试更好?

2样本Kolmogorov-Smirnov对比Anderson-Darling对比Cramer-von-Mises(大约两个样本的测试,但许多陈述仍然沿用

分布之间的Kolmogorov距离的动机(更多的理论讨论,但关于实际意义有几个重要要点)


我认为您无法在Cramer-von Mises和Anderson Darline统计数据中形成CDF的置信区间,因为该标准基于所有偏差,而不仅仅是最大偏差。


我将“最先进的技术”指的是发现有用的东西而不是过时的。多个拟合优度定义的存在应向我们表明,拟合优度不是一个单一的概念。考虑“好”取决于我们执行回归的“原因”。假设我们将模型A拟合到数据B,以获得效果C的最佳预测变量。那么“好”是C而不是B的最佳预测变量。但是,大多数情况下,B和C如何不同的问题被忽略了。
卡尔,

1
@Carl你可能要检查什么的字典(或维基百科)最先进的国家通常采取的意思是-你的这句话的解释是不是大多数人怎么看这句话。词典说的是这样的话:“ 开发的最新阶段,结合了最新的想法 ”和“ 在给定时间的最高水平的开发 ”和“ 使用最新技术的最前沿 ”。在这种情况下-测试拟合优度-该短语表示“我们现在可能做的最好的事情”。我坚持说,关于任何一项测试,您都无法真正说出这些话。ctd
Glen_b-莫妮卡(Reonica)莫妮卡(Monica)更新时间:2016年

2
...例如,我们可以说,诸如Shapiro-Wilk之类的流行测试(虽然在正常性测试中非常流行)具有强大得多的竞争者(例如,参见Shapiro&Chen 1995),但并非在每种情况下都如此。没有唯一的最佳测试选择(因此也没有实际的“最新技术”)。当然,我同意最好的(最先进的)方法取决于具体情况,这就是我的答案。可能的答案是多种多样的-一种情况下好的事情可能在另一种情况下很差。知道测试什么时候表现良好而不是像单打独斗一样询问“什么是最好的”是值得的。
Glen_b-恢复莫妮卡

是的,您的定义更正确。但是,方法的检验要比方法的检验多得多,并且“最新技术”在很大程度上是虚构的,即,“艺术”没有“状态”,只是主角。对这种模糊的假设的任何回应都是模棱两可的。我说“是”,而你说“不”,我们都说了同样的话。
卡尔,

顺便说一句,问题是“最先进的”或“已替换的”,我认为这是“过时的,不是过时的”。因此,我的回答有一个上下文,上下文是“请假设'最新状态'和'替换'是反义词,请选择其中之一。” 您是正确的,这些不是反义词,我是在上下文中回答的,您选择提出这个问题。因此,我的回答是礼貌。而且,我将投票支持您的答案,因为我认为这很有帮助,即使不是很有礼貌。
卡尔,

2

Anderson-Darling检验并非在所有发行版上都可用,但具有的功效很好,并且与Shapiro-Wilk检验的功效相近,除了少量样本外,因此两者在 Razali NM,Wah YB时等效Shapiro-Wilk,Kolmogorov-Smirnov,Lilliefors和Anderson-Darling检验的功效比较。统计建模与分析杂志。2011; 2:21-33。但是,Shapiro-Wilk检验仅用于正态分布检验。对于所有与直方图的分布拟合,Cramér–von Mises检验和Pearson卡方检验是通用的,我认为Cramér–von Mises检验比Pearson卡方检验具有更大的功效。该克拉美·冯·米塞斯测试n=400 是比Kolmogorov-Smirnov检验更强大的累积密度函数拟合优度检验,并且功效可以大于或小于t检验。卡方数很难实现低单元格计数,因此使用范围限制来拟合尾巴。

**问题1:...这两种方法是否仍是最新技术?或已经被一些更好的方法所取代?问题2这种测试的置信区间是多少?**

答:它们是最新技术。但是,有时我们希望置信区间不是概率。当将这些方法相互比较时,我们说的是功效而不是置信区间。有时使用AIC,BIC和其他标准来分析拟合优度,而不是拟合良好的概率,有时拟合优度标准是不相关的,例如,当拟合优度不是拟合标准时。在后一种情况下,我们的回归目标可能是与拟合无关的物理量,例如,参见Tk-GV


注意:Anderson-Darling检验是Cramer-von Mises检验的加权版本;&,就像它,适用于任何连续分布。
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.