QQ图与直方图不匹配

12

我有一个直方图，内核密度和拟合的正态分布的财务日志收益，它们已转换为损失（符号已更改），以及这些数据的正态QQ图：

QQ图清楚地表明尾巴未正确安装。但是，如果我看一下直方图和拟合的正态分布（蓝色），即使0.0左右的值也不能正确拟合。因此，QQ图显示仅尾部未正确拟合，但显然整个分布未正确拟合。为什么这不会显示在QQ图中？

— 统计学家
source

10

左侧的蓝色曲线对应于右侧的“最佳拟合”假想线。右边的线不是最适合的线：它是最适合分布中的中间值的线。如果您要使“钟形曲线”适合直方图的三分之二左右，而不是整个曲线，那么该曲线将接近峰顶和陡峭的边，但是距离远肩膀和尾巴太低。这也正是qq图中显示的线条：这些图完全吻合；不同的是适合的。

— ub

11

+1到@NickSabbe，因为“情节只告诉您“某事是错误的””，这通常是使用qq情节的最佳方法（因为可能很难理解如何解释它们）。但是，可以通过考虑制作一个qq图来学习如何解释一个qq图。

您将首先对数据进行排序，然后从最小值开始向上计数，然后将每个百分比都相等。例如，如果您有20个数据点，那么当您计算第一个（最小）数据点时，您会对自己说：“我计算了5％的数据”。您将按照此过程进行操作，直到结束为止，此时您将已100％通过了数据。然后可以将这些百分比值与相应的理论法线（即具有相同均值和SD的法线）的相同百分比值进行比较。

绘制这些图时，您会发现最后一个值（100％）有问题，因为当您通过100％的理论法线时，您处于“无穷大”状态。通过在计算百分比之前在数据的每个点上向分母添加一个小常数来解决此问题。一个典型的值是在分母上加1。例如，您将第一个（共20个）数据点称为1 /（20 + 1）= 5％，最后一个将是20 /（20 + 1）= 95％。 现在，如果将这些点相对于相应的理论法线作图，则将有一个pp图（用于针对概率绘制概率）。这样的图很可能会显示您的分布与分布中心的法线之间的偏差。这是因为正态分布的68％位于+/- 1 SD之内，因此pp曲线在此处具有出色的分辨率，而在其他位置则具有较差的分辨率。（有关这一点的更多信息，在这里阅读我的答案可能会有所帮助：PP-图与QQ-图。）

通常，我们最担心的是分布的尾部发生了什么。为了获得更好的分辨率有（和在中间这样糟糕的分辨率），我们可以构造一个QQ积来代替。为此，我们采取几组概率，然后将它们通过正态分布CDF的逆函数进行传递（这就像向后阅读统计手册背面的z表），即您读入概率并读出z-得分）。此操作的结果是两组分位数，可以类似地相互绘制。

@whuber是正确的，此后（通常）通过找到穿过点的中间50％（即，从第一个四分位数到第三个四分位数）的最佳拟合线来绘制参考线。这样做是为了使绘图更易于阅读。使用这条线，您可以将图解释为向您显示分布的分位数是否随着您移到尾部而逐渐偏离真实法线。（请注意，离中心较远的点的位置并不真正独立于靠近点的位置;因此，在您的特定直方图中，尾巴似乎在具有``肩部''不同之后汇聚在一起，这并不意味着分位数现在又一样了。）

通过考虑从轴读取的值比较给定的绘制点，可以解析地解析qq图。如果用正态分布很好地描述了数据，则这些值应大致相同。例如，在最左下角的极点处：其值位于，但其值仅位于，因此它比“应该”更远。在一般情况下，一个简单的量规来解释一个QQ-情节是，如果给定的尾巴曲折掉从基准线逆时针，还有更多的在你的发行版尾巴比理论上的正常数据，如果一个尾巴曲折断顺时针有是少 $x$ $-3$ $y$ $-.2$ 分布尾部的数据要比理论上的正态分布要好。换一种说法：

如果两条尾巴都逆时针旋转，则您的尾巴很重（leptokurtosis），
如果两条尾巴都顺时针扭曲，则说明您的尾巴很轻（鸭嘴兽）
如果您的右尾巴逆时针旋转而您的左尾巴顺时针旋转，则您有右偏
如果您的左尾巴逆时针旋转而您的右尾巴顺时针旋转，则您已向左倾斜

— gung-恢复莫妮卡
source

我发现这样的评论并不令人满意。一种是它们与情节背后的原理没有直接联系：它们必须分别存储（并且可能因错误的记忆而完全混淆）。另一个（在这种情况下）是它太复杂而无法可靠地使用。还有另一个问题是，当将这种绘图绘制成标准方法时，如果缺乏标准化，可能会使该方法不正确，从而将其应用于通过其他程序制作的qq绘图。但是qq图很容易解释：请参阅我对quantdec.com/envstats/notes/class_03/probability.htm进行解释的尝试。

— ub

5

简而言之：QQ图显示了经验分布与预期分布相比的排名。在您的情况下（实际上通常是这种情况；总是具有对称分布），中间值的接近在预期值和经验值之间是相似的，因此QQ图靠近该行。

根据QQ图上的位置实际识别“奇怪”的观察值并不是那么简单：该图只是告诉您“某事是错误的”，如果您对数据/分布有更多了解，您可能会发现问题出在哪里。

— 尼克·萨布比
source

1

我会保持相反的结论，尼克：与数据主体相比，qq图可以更轻松地识别和评估“奇怪”的结果，而直方图往往会掩盖qq图所揭示的内容。这里的问题不在于qq图是否接近直线：它关系到软件选择了哪条线作为该图的参考！（我怀疑R它的拟合基于某些中等百分位数，例如四分位数，而显然直方图的拟合基于匹配时刻。）

— whuber

1

@whuber：就个人而言，如果可能的话，我喜欢看两者（主要是因为我比QQ绘图更容易“读取”直方图）。但是你是对的，我会纠正的。

— Nick Sabbe

您完全正确地认为这两种技术是互补的。例如，与qq图相比，直方图中的双峰趋势往往更易于检测（和量化）。我相信，通过实践，直方图和qq图都变得易于阅读。仅由于它们没有标准的表示形式，所以可能需要花费一些时间来学习QQ图：您始终必须检查值的轴和分位数，有时分位数会转换为“等效值”（而不是标准化）。

— ub