Answers:
正如@ vector07 笔记,概率图是比较抽象类,其中PP-图和QQ-地块是其成员。因此,我将讨论后两者的区别。理解差异的最好方法是思考它们的构造方式,并了解您需要识别分布的分位数与达到给定分位数时已通过的分布比例之间的差异。您可以通过绘制分布的累积分布函数(CDF)来查看它们之间的关系。例如,考虑标准正态分布:
我们看到,y轴(红线之间的区域)的大约68%对应于x轴(蓝线之间的区域)的1/3。这意味着,当我们使用已通过的分布比例来评估两个分布之间的匹配时(即,我们使用pp图),我们将在分布的中心获得很多分辨率,但在尾巴。另一方面,当我们使用分位数来评估两个分布之间的匹配时(即,我们使用qq图),我们将在尾部得到很好的分辨率,而在中心得到更少的分辨率。(因为数据分析人员通常更关注分布的尾部,例如,分布尾部将对推理产生更大的影响,所以qq-plots比pp-plots更为常见。)
为了了解这些事实,我将逐步构建pp图和qq图。(我还在口头上/缓慢地遍历了qq-plot的构建:QQ-plot与直方图不匹配。)我不知道您是否使用R,但希望它可以不言自明:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
不幸的是,这些图不是很独特,因为数据很少,而且我们正在将真实的正态与正确的理论分布进行比较,因此在分布的中心或尾部都看不到任何特别之处。为了更好地说明这些差异,我在下面绘制了具有4个自由度的(胖尾)t分布。胖尾巴在qq图中更具特色,而双峰态在pp图中更具特色。
这是v8doc.sas.com的定义:
PP图将数据集的经验累积分布函数与指定的理论累积分布函数F(·)进行比较。QQ图将数据分布的分位数与来自指定分布族的标准化理论分布的分位数进行比较。
在文本中,他们还提到:
参考:
SAS Institute Inc.,SASOnlineDoc®,版本8,Cary,NC:SAS Institute Inc.,1999