我有一个直方图,内核密度和拟合的正态分布的财务日志收益,它们已转换为损失(符号已更改),以及这些数据的正态QQ图:
QQ图清楚地表明尾巴未正确安装。但是,如果我看一下直方图和拟合的正态分布(蓝色),即使0.0左右的值也不能正确拟合。因此,QQ图显示仅尾部未正确拟合,但显然整个分布未正确拟合。为什么这不会显示在QQ图中?
我有一个直方图,内核密度和拟合的正态分布的财务日志收益,它们已转换为损失(符号已更改),以及这些数据的正态QQ图:
QQ图清楚地表明尾巴未正确安装。但是,如果我看一下直方图和拟合的正态分布(蓝色),即使0.0左右的值也不能正确拟合。因此,QQ图显示仅尾部未正确拟合,但显然整个分布未正确拟合。为什么这不会显示在QQ图中?
Answers:
+1到@NickSabbe,因为“情节只告诉您“某事是错误的””,这通常是使用qq情节的最佳方法(因为可能很难理解如何解释它们)。但是,可以通过考虑制作一个qq图来学习如何解释一个qq图。
您将首先对数据进行排序,然后从最小值开始向上计数,然后将每个百分比都相等。例如,如果您有20个数据点,那么当您计算第一个(最小)数据点时,您会对自己说:“我计算了5%的数据”。您将按照此过程进行操作,直到结束为止,此时您将已100%通过了数据。然后可以将这些百分比值与相应的理论法线(即具有相同均值和SD的法线)的相同百分比值进行比较。
绘制这些图时,您会发现最后一个值(100%)有问题,因为当您通过100%的理论法线时,您处于“无穷大”状态。通过在计算百分比之前在数据的每个点上向分母添加一个小常数来解决此问题。一个典型的值是在分母上加1。例如,您将第一个(共20个)数据点称为1 /(20 + 1)= 5%,最后一个将是20 /(20 + 1)= 95%。 现在,如果将这些点相对于相应的理论法线作图,则将有一个pp图(用于针对概率绘制概率)。这样的图很可能会显示您的分布与分布中心的法线之间的偏差。这是因为正态分布的68%位于+/- 1 SD之内,因此pp曲线在此处具有出色的分辨率,而在其他位置则具有较差的分辨率。(有关这一点的更多信息,在这里阅读我的答案可能会有所帮助:PP-图与QQ-图。)
通常,我们最担心的是分布的尾部发生了什么。为了获得更好的分辨率有(和在中间这样糟糕的分辨率),我们可以构造一个QQ积来代替。为此,我们采取几组概率,然后将它们通过正态分布CDF的逆函数进行传递(这就像向后阅读统计手册背面的z表),即您读入概率并读出z-得分)。此操作的结果是两组分位数,可以类似地相互绘制。
@whuber是正确的,此后(通常)通过找到穿过点的中间50%(即,从第一个四分位数到第三个四分位数)的最佳拟合线来绘制参考线。这样做是为了使绘图更易于阅读。使用这条线,您可以将图解释为向您显示分布的分位数是否随着您移到尾部而逐渐偏离真实法线。(请注意,离中心较远的点的位置并不真正独立于靠近点的位置;因此,在您的特定直方图中,尾巴似乎在具有``肩部''不同之后汇聚在一起,这并不意味着分位数现在又一样了。)
通过考虑从轴读取的值比较给定的绘制点,可以解析地解析qq图。如果用正态分布很好地描述了数据,则这些值应大致相同。例如,在最左下角的极点处:其值位于,但其值仅位于,因此它比“应该”更远。在一般情况下,一个简单的量规来解释一个QQ-情节是,如果给定的尾巴曲折掉从基准线逆时针,还有更多的在你的发行版尾巴比理论上的正常数据,如果一个尾巴曲折断顺时针有是少分布尾部的数据要比理论上的正态分布要好。换一种说法:
简而言之:QQ图显示了经验分布与预期分布相比的排名。在您的情况下(实际上通常是这种情况;总是具有对称分布),中间值的接近在预期值和经验值之间是相似的,因此QQ图靠近该行。
根据QQ图上的位置实际识别“奇怪”的观察值并不是那么简单:该图只是告诉您“某事是错误的”,如果您对数据/分布有更多了解,您可能会发现问题出在哪里。
R
它的拟合基于某些中等百分位数,例如四分位数,而显然直方图的拟合基于匹配时刻。)