Python中的QQ图


11

我使用以下代码生成了一个qq图。我知道qq图用于检查数据是否正常分布。我的问题是x和y轴标签在qq图中指示什么,r平方值指示什么?

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

在此处输入图片说明

我知道已经有关于qq图的讨论,但是尽管进行了讨论,但我无法理解的概念。


4
这非常接近链接线程的副本-Python vs R在这里并不是重要的区别-但是方面是新的。对于问题和答案,将更多的注意力放在该方面以避免重复是一个好主意。(我想知道R 2是否易于被误解,因为即使拟合不佳,QQ图中不可避免的向上倾斜也意味着我们期望R 2稍微大于零。因此,在回归分析中可能令人印象深刻的值可能[R2[R2[R2
Silverfish

@Silverfish我认为专注于不会有帮助或值得。通常可以看到 QQ图,而不仅仅是报告了无数的R 2值表。只要存在可视化,为什么要将其减少为一个数字?如果QQ图看起来“不好”,但是R 2某种程度上看起来“很好”,您是否仍然认为它是正常的?正是由于这个原因,大多数好的包装甚至都没有提供R 2。这个瞬间与瞬间的论点甚至有一个可爱的名字:Anscombe的四重奏[R2[R2[R2[R2
Mike Williamson

[R2[R2

确定要绘制QQ图吗?help(probplot)状态:probplot生成概率图,不应与QQ或PP图混淆。
abukaj

Answers:


10

Macond的回答是准确的,但是从原始帖子来看,我认为稍微简化一下措辞可能会有所帮助。

QQ图代表“分位数-分位数”图

该图是故意对轴进行变换以使正态(或高斯)分布出现在直线中的图。换句话说,一个完美的正态分布将恰好遵循斜率= 1且截距= 0的直线。

因此,如果该图看起来不是-大致-直线,则基础分布不正常。例如,如果弯曲,则“高传单”值会比预期的多。(该链接提供了更多示例。)


  1. x&y标签代表什么?

理论位数沿x轴放置。也就是说,x轴不是您的数据,它只是对您的数据应该在哪里的期望,如果它是正常的。

实际的数据被沿着y轴绘制。

值是与平均值的标准偏差。因此,0是数据的平均值,1是上面的1个标准偏差,等等。这意味着,例如68.27%,如果您具有正态分布,则所有数据的平均值应在-1和1之间。

  1. [R2

[R2[R2[R2[R2


最后,有一个很少使用的相似图称为pp图。如果您有兴趣关注大量数据的位置而不是极端情况,则此图将更加有用。


1
歪斜这个词 在这里不是最好的选择:我要说是transformed
尼克·考克斯

很好的解释。您能解释一下x轴(期望值)是如何生成的吗?
Vivek Ananthan

1

Y轴表示观测分布的值,X轴表示理论分布的值。

每个点都是一个分位数。假设,如果图表上有100个点,则第一个点(左下角的一个点)表示一个区间的上限,从最小到最大的顺序,则表示该点的最小1%数据点相应的分布保持在此间隔内。同样,第二点是区间的上限,分布中最小的2%数据点位于该区间。这就是分位数的概念。但这不限于间隔为100的情况,这是一个一般概念,您可以拥有尽可能多的间隔,那么您将拥有许多描述间隔边界的分位数。

--

我在整个答案中都使用了数据点,例如有序数据点等。这是指离散分布,但是可以将概念推广到连续分布。

[R2[R2


3
[R2[R2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.