在直方图中使用QQ绘图的好处


22

此评论中,尼克·考克斯写道:

归类是一种古老的方法。尽管直方图可能有用,但现代统计软件可以轻松且明智地使分布适合原始数据。分档只是丢弃了细节,这对于确定合理的分布至关重要。

此评论的内容建议使用QQ绘图作为评估拟合度的替代方法。该声明听起来很合理,但我想知道一个支持该声明的可靠参考。除了简单的“嗯,这听起来很明显”之外,是否有论文对这一事实进行了更彻底的研究?对结果或类似内容进行任何实际的系统比较吗?

我还想了解QQ曲线相对于直方图的优势可以扩展到模型拟合以外的其他应用程序。关于这个问题的答案同意“ QQ图[…]只是告诉您“某事是错误的””。我正在考虑使用它们作为一种工具来识别与零模型相比观察到的数据中的结构,并想知道是否存在任何建立的过程可以使用QQ图(或其基础数据)不仅检测而且描述非随机观测数据中的结构。因此,包括该方向的参考文献将特别有用。


4
stats.stackexchange.com/questions/51718/…已经回答了一半的问题,即为什么最好避免使用直方图,无论用什么替换直方图。
晚会

Answers:


25

这里的经典论文是

威尔克,MB和R. Gnanadesikan。1968年。用于数据分析的概率图绘制方法。Biometrika 55:1-17

而且仍能偿还仔细阅读的次数。

由许多很好的例子进行了清醒的治疗

克利夫兰,WS1993。可视化数据。新泽西州峰会:霍巴特出版社。

值得一提的是

克利夫兰,WS1994。图形数据的元素。新泽西州峰会:霍巴特出版社。

包含对该方法有合理了解的其他文本包括

Davison,AC2003。统计模型。剑桥:剑桥大学出版社。

Rice,JA2007。《数学统计和数据分析》。加利福尼亚贝尔蒙特:达克斯伯里。

顺便说一句,我不知道您要问什么。一旦您看到了分位数图的点,详细显示了直方图是第二流的替代品,既没有意思,也没有用,就像在桶中射鱼一样。

但我会这样总结:

  1. 装箱会抑制细节,细节通常很重要。这不仅适用于尾部发生的事情,还可以应用于中部发生的事情。例如,粒度或多峰性以及偏度或尾重可能很重要。

  2. 装仓需要有关装仓原点和装仓宽度的决策,这可能会严重影响直方图的外观,因此很难看到什么是真实的以及选择的副作用。如果您的软件为您做出这些决定,问题仍然存在。(例如,默认的垃圾箱选择通常是经过设计的,以便您不要使用“太多的垃圾箱”,即,稍微平滑一下。)

  3. 比较两个直方图的图形和心理问题比判断一组点与直线的拟合度要难得多。

-均值)/ SD。如果分位数只是阶数统计,那么您要做的就是应用转换,例如,最大值的对数等于对数的最大值,依此类推。(通常,往复会颠倒顺序。)即使您绘制基于两个阶次统计量的选定分位数,通常也只是将它们插值在两个原始数据值之间,并且插值的效果微不足道。相比之下,对数或其他变换比例的直方图需要重新确定仓位的原点和宽度,这并不是特别困难,但这并非无关紧要。可以将密度估计作为概括分布的一种方法。



7

一旦学习了如何使用它们,QQ图就可以识别偏斜度,重尾度,总体形状,峰等,人们倾向于使用直方图来尝试评估相同的特征。

内核密度估计或对数样条密度估计可以避免Gala在评论中指出的直方图问题。

从该链接考虑以下示例:

但是,除非您非常幸运,否则有时甚至会因直方图甚至平滑的密度估计(因为它们自然平滑)而错过意想不到的离散性,但在QQ绘图中通常会很明显。除非特别处理,否则平滑的密度估计值也会对有界变量造成麻烦。

直方图和平滑密度估计都依赖于数据的近似值(这可能很有用),但也可能会引入伪像或某些表示不正确的事物。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.