PP-图与QQ-图

39

尝试分析数据的拟合分布时，概率图，PP图和QQ图之间有什么区别？

— y
source

4

维基百科似乎可以帮助您解决这一问题：概率图。QQ图，PP图。如果您有更具体的问题，请澄清！

— vector07 2014年

谢谢，我想我把PP图和概率图弄糊涂了！

— 凯2014年

41

正如@ vector07 笔记，概率图是比较抽象类，其中PP-图和QQ-地块是其成员。因此，我将讨论后两者的区别。理解差异的最好方法是思考它们的构造方式，并了解您需要识别分布的分位数与达到给定分位数时已通过的分布比例之间的差异。您可以通过绘制分布的累积分布函数（CDF）来查看它们之间的关系。例如，考虑标准正态分布：

在此处输入图片说明

我们看到，y轴（红线之间的区域）的大约68％对应于x轴（蓝线之间的区域）的1/3。这意味着，当我们使用已通过的分布比例来评估两个分布之间的匹配时（即，我们使用pp图），我们将在分布的中心获得很多分辨率，但在尾巴。另一方面，当我们使用分位数来评估两个分布之间的匹配时（即，我们使用qq图），我们将在尾部得到很好的分辨率，而在中心得到更少的分辨率。（因为数据分析人员通常更关注分布的尾部，例如，分布尾部将对推理产生更大的影响，所以qq-plots比pp-plots更为常见。）

为了了解这些事实，我将逐步构建pp图和qq图。（我还在口头上/缓慢地遍历了qq-plot的构建：QQ-plot与直方图不匹配。）我不知道您是否使用R，但希望它可以不言自明：

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

在此处输入图片说明

不幸的是，这些图不是很独特，因为数据很少，而且我们正在将真实的正态与正确的理论分布进行比较，因此在分布的中心或尾部都看不到任何特别之处。为了更好地说明这些差异，我在下面绘制了具有4个自由度的（胖尾）t分布。胖尾巴在qq图中更具特色，而双峰态在pp图中更具特色。

在此处输入图片说明

— gung-恢复莫妮卡
source

14

@AleksandrH我们非常感谢您对学生的关注。但是，您对本网站仅适用于统计新手的隐含假设是错误的；并且您暗示“冗长的答案”不适合学生，这是不符合现实的，因为本网站上的许多“冗长的”答案都将证明这一点。表达您的投诉的一种更具建设性的方式是通过示例：通过在此处发布符合您满足新学生需求标准的答案，向我们展示如何改善我们的回答，并激励我们效法您。

— ub

12

这是v8doc.sas.com的定义：

PP图将数据集的经验累积分布函数与指定的理论累积分布函数F（·）进行比较。QQ图将数据分布的分位数与来自指定分布族的标准化理论分布的分位数进行比较。

在文本中，他们还提到：

PP图和QQ图的构造和解释方式上的差异。
关于比较经验分布和理论分布，使用一个或另一个的优点。

参考：

SAS Institute Inc.，SASOnlineDoc®，版本8，Cary，NC：SAS Institute Inc.，1999

— 安德烈·席尔瓦（Andre Silva）
source