我试图确定我的连续数据数据集是否遵循参数shape 1.7和rate 0.000063 的伽马分布。
问题是,当我使用R来创建数据集对于理论分布伽玛(1.7,0.000063)的QQ图时,我得到了一个图,该图表明经验数据与伽玛分布大致相符。ECDF图也会发生相同的情况。
但是,当我运行Kolmogorov-Smirnov检验时,它给了我< 1 %的不合理的值。
我应该选择相信哪个?图形输出还是KS测试的结果?
我试图确定我的连续数据数据集是否遵循参数shape 1.7和rate 0.000063 的伽马分布。
问题是,当我使用R来创建数据集对于理论分布伽玛(1.7,0.000063)的QQ图时,我得到了一个图,该图表明经验数据与伽玛分布大致相符。ECDF图也会发生相同的情况。
但是,当我运行Kolmogorov-Smirnov检验时,它给了我< 1 %的不合理的值。
我应该选择相信哪个?图形输出还是KS测试的结果?
Answers:
我不认为“不相信” QQ情节(如果您正确制作了它)没有任何意义。它只是数据真实性的图形表示,与定义性分布并列。显然,这并不是一个完美的匹配,但是如果它足以满足您的目的,那么故事结局或多或少。您可能需要检查以下相关问题:正常性测试是否“基本上没有用”?
KS检验的值基本上是在告诉您,样本量足够大,可以提供强有力的证据来反对零假设,即您的数据与参考分布属于同一分布(我假设您参考的是伽马分布;可能要仔细检查您是否做了)。从QQ图表来看,这似乎也足够清楚(即,存在一些小的但看似系统的偏差模式),因此我认为这里没有真正矛盾的信息。
对于您的预期目的,您的数据是否与伽玛分布太不同了,这是另一个问题。单靠KS测试无法为您解答(因为其结果取决于您的样本量以及其他原因),但是QQ图可能会帮助您做出决定。您可能还希望寻找计划运行的任何其他分析的可靠替代品,并且如果您特别认真考虑任何后续分析对伽玛分布偏差的敏感性,那么您可能还需要考虑进行一些模拟测试。
您可以做的是根据您的理论分布创建多个样本,然后将其绘制在QQ图的背景上。这将使您了解仅通过采样就可以合理预期的可变性。
您可以使用第86-89页的示例扩展该思想,以围绕理论界线创建一个信封:
Venables,WN和Ripley,BD,2002年。S. New York的现代应用统计:Springer。
这将是一个逐点信封。您可以使用第151-154页中的构想,进一步扩展该构想以创建整体信封:
Davison,AC和Hinkley,DV1997。自举方法及其应用。剑桥:剑桥大学出版社。
但是,对于基础探索,我认为仅在QQ图的背景中绘制几个参考样本就足够了。
QQ绘图是一种探索性的数据分析技术,应将其当作其他所有EDA绘图一样对待。它们只是为了使您初步了解现有数据。您永远不应基于QQ图等EDA图来决定或停止分析。仅考虑QQ图是错误的建议。您绝对应该使用KS Test等定量技术。假设您还有另一个类似数据集的QQ图,那么在没有定量工具的情况下如何比较两者?在进行EDA和KS测试之后,下一步是为您找出KS测试为何给出低p值的情况(在您的情况下,甚至可能是由于某些错误)。
EDA技术不能用作决策工具。实际上,我想说的是推论统计也只是探索性的。它们为您指示应该进行统计分析的方向。例如,对样本进行t检验只会使您确信该样本可能(或可能不属于)总体的置信度,您仍然可以根据对数据属于什么分布以及什么分布的洞察力进一步进行研究。是其参数等。实际上,当有人指出,甚至作为机器学习库的一部分实现的技术在本质上也是探索性的!!!我希望他们在这个意义上是真的...!
基于图或可视化技术得出统计决策的结论是对统计科学进展的嘲弄。如果您问我,您应该将这些图用作基于定量统计分析传达最终结论的工具。