量化QQ图


10

qq图可用于可视化两个分布的相似程度(例如,可视化分布与正态分布的相似性,还可以比较两个人工数据分布)。是否有任何统计数据能够生成更客观的数值度量来表示其相似性(最好以归一化(0 <= x <= 1)形式)?例如,在使用洛伦兹曲线时,基尼系数用于经济学中。QQ图有东西吗?

Answers:


8

正如我所说的,对于您对上一个问题的评论,请查看Kolmogorov-Smirnov检验。它使用两个累积分布函数之间的最大绝对距离(也可以认为是QQ绘图中距45度线的曲线的最大绝对距离)作为统计数据。可以使用ks.test()“状态”库中的命令在R中找到KS测试。这是有关其R用法的更多信息。


请注意(据我所知),KS测试用于根据先验分布测试经验数据。比较两个经验分布不适当,也不适合将经验数据与先验分布进行比较,先验分布的参数值是根据经验数据估算的。
Mike Lawrence 2010年

4
@Mike,您可以使用KS检验来比较两个经验得出的分布,见查理事先回答和评论stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/...
安迪W¯¯

@Andy,嗯,我从itl.nist.gov/div898/handbook/eda/section3/eda35g.htm中得出了第3点,其推论是您无法比较两个经验CDF,但是我发现我的假设并非如此适当。很高兴知道,谢谢!
Mike Lawrence

2
但是,第3点确实暗示您不能使用KS来检验您的数据是否来自正态分布,且均值和sd均由数据估算得出。在我遇到的心理学学生中,这是一个普遍的错误。
Stephan Kolassa 2010年

1
(+1)这个答案的优势是可以直接从QQ图读取KS统计信息。
whuber

2

最近使用经验CDF和拟合CDF之间的相关性来量化拟合优度,并且我想知道这种方法在当前情况下是否也有用,据我所知,它涉及比较两个经验数据集。如果集合之间存在不同数量的观测值,则可能需要插值。


您的论文包括非常好的数字:)
chl 2010年

@chi:它们都是使用ggplot2在R中创建的。这是一个很棒的图形制作系统!
Mike Lawrence 2010年

合适的CDF是什么意思?
Ampleforth

@Ampleforth,在那篇论文中,我将分布拟合到经验数据,因此,“拟合CDF”是指拟合分布的理论CDF。抱歉,我知道我该如何说得更清楚!
Mike Lawrence

哦,请不要道歉。我缺乏统计信息,这是很大的问题,这是这里唯一的问题;)另外,我没有看过您的论文,只是浏览了我真正喜欢的图表。
Ampleforth

1

我想说,比较两个分布的或多或少的规范方法将是卡方检验。不过,该统计数据尚未标准化,具体取决于您如何选择垃圾箱。最后一点当然可以看作是一个功能,而不是一个错误:例如,正确选择垃圾箱可让您更紧密地寻找尾部的相似性,而不是分布中间的相似性。


1

可以直接在QQ图中直接测量线性度的“接近度”,即Shapiro-Francia检验统计量(与更知名的Shapiro-Wilk有密切关系,可以视为对其的简单近似)。

Shapiro-Francia统计量是有序数据值和预期正态统计量之间的平方相关性(有时标记为“理论分位数”),也就是说,它应该是您在图中看到的相关性的平方,非常直接简易措施。

(Shapiro-Wilk是相似的,但是考虑了订单统计信息之间的相关性;它与Shapiro-Francia具有相似的解释,并且与QQ图的摘要几乎一样有用。)

无论哪种方式,对于QQ图显示的单个数字摘要,其中一种可能是对图进行汇总的合适方法。

1个-w ^

n1Wññ1个-w ^ñññ日志ñ日志ññ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.