QQ剧情解读


11

考虑以下代码和输出:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

在此处输入图片说明

看来,对数正态的QQ图与weibull的QQ图几乎相同。我们如何区分它们?此外,如果这些点在两条外部黑色线所定义的区域内,是否表示它们遵循指定的分布?


我相信您正在使用车载套件,不是吗?如果是这样,则应library(car)在代码中包含该语句,以使人们更容易理解。一般而言,您可能还希望设置种子(例如set.seed(1))以使示例可重现,以便任何人都可以获取与您获得的数据点完全相同的数据点,尽管此处可能并不那么重要。
gung-恢复莫妮卡

2
这将无法按书面要求在我的计算机上运行。例如,car软件包中的qqPlot希望正常表示标准,而对数正常表示lnorm。我想念什么?
汤姆(Tom)

2
@Tom,我把包裹弄错了。显然,这是qualityTools包。此外,该示例似乎是从此处获取的
gung-恢复莫妮卡

一个有趣的替代方法是Cullen和Frey图,请参见stats.stackexchange.com/questions/243973/… 例如
kjetil b halvorsen

Answers:


12

这里有两件事要说:

  1. 数正态的CDF形状与Weibull的CDF形状足够相似,因此比Weibull与其他模型之间的相似程度更难区分。
  2. 外面的黑色线形成一个置信带。置信带在推理中的使用与频率统计推断的任何其他标准形式相同。也就是说,当值落在该范围内时,我们不能拒绝零假设,即假设分布是正确的。这与说我们知道假设分布是正确的说法不同。(请注意,这是我在此处的另一个答案中讨论的一个很好的例子,在这种情况下,假设假设检验的Fisher观点比Neyman-Pearson更为可取。)
  3. 您需要更多数据;您的在这里只有20。 ñ

有没有办法检查小样本量的分布?
质子

实际上,这些点似乎位于所有分布的置信带中。所以我们不能区分分布吗?
质子

1
对于数据集与理论分布的拟合优度进行了测试,但我倾向于认为它们不如qq-plots。基本上,您将无法区分那些分布。如果从统计能力的角度考虑这一点,那么您在这里拒绝每个错误null的能力为。它可以帮助您阅读我在第2点中链接的答案。ñ=205
gung-恢复莫妮卡

2
小样本数量+1。使用300个样本将有助于区分很多东西。质子:不,您无法真正通过少量样本来区分分布。你怎么能?这就像尝试识别20像素的人脸。
韦恩(Wayne)

3

看来,对数正态的QQ图与weibull的QQ图几乎相同。

是。

我们如何区分它们?

以该样本大小,您可能无法做到。

此外,如果这些点在两条外部黑色线所定义的区域内,是否表示它们遵循指定的分布?

否。它仅表示您不能说数据的分布与该分布不同。缺乏差异的证据,而不是缺乏差异的证据。

您几乎可以确定,数据来自与您考虑的分布无关的任何分布(为什么会完全来自任何分布?)。


就像措辞一样:“缺少差异的证据,而不是缺乏差异的证据。”
jlandercy
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.