从广义上讲(不仅是拟合优度检验,而且在许多其他情况下),您不能简单地断定null是真实的,因为在任何给定的样本量下,有些选择都可以与null有效地区分开。
这是两个分布,一个标准正态(绿色实线)和一个看起来相似的分布(90%标准正态和10%标准化beta(2,2),用红色虚线标出):
红色的是不正常的。在,我们几乎没有机会发现差异,因此我们不能断言数据是从正态分布中提取的-如果它是从非正态分布(如红色)中提取的呢?n=100
具有相同但较大参数的标准化beta的较小部分将很难被视为与正常值不同。
但是,鉴于真实数据几乎永远不会来自某种简单的分布,因此,如果我们有一个完善的预言(或有效地无限大的样本量),我们将基本上总是拒绝数据来自某种简单的分布形式的假设。
正如乔治·博克斯(George Box)所说的那样:“ 所有模型都是错误的,但有些模型是有用的。 ”
考虑例如测试正常性。可能数据实际上来自接近正常值的东西,但是它们会完全正常吗?他们可能永远不会。
取而代之的是,您所期望的那种情况就是您所描述的情况。(例如,参见“正常性测试本质上是没用的吗?”,但是这里还有许多其他文章也提出了相关观点)
这就是我经常向人们建议他们真正感兴趣的问题的部分原因(通常更接近于“我的数据是否足够接近分布,因此我可以在此基础上做出适当的推断?”)拟合优度测试未很好回答。就正态而言,他们希望应用的推论程序(t检验,回归等)通常在大样本中往往效果很好-即使原始分布明显很不正常,通常也是如此。体格测试很可能会拒绝正常性。仅当问题无关紧要时,使用最有可能告诉您数据不正常的过程几乎没有用。F
再次考虑上图。红色分布是非正态的,对于非常大的样本,我们可以拒绝基于它的样本进行的正态性检验……但是在较小的样本量,回归和两个样本t检验(以及许多其他检验)下除了)会表现得非常好,以至于甚至不必担心这种非正常性。
类似的考虑不仅扩展到其他分布,而且在很大程度上扩展到大量的假设检验(例如,甚至是的两尾检验)。一个人也可能会问同样的问题- 如果我们不能得出均值是否具有特定值的结论,那么进行这种检验的意义何在?μ=μ0
您也许可以指定一些特定形式的偏差并查看等效检验,但是由于要通过多种方式使分布接近但又不同于假设的差异,因此拟合优度有点高差异形式可能会对分析产生不同的影响。如果替代方案是一个更广泛的家族,在特殊情况下将null包括在内,则等效测试更有意义(例如,针对gamma进行指数测试)-实际上,“两面测试”方法可以实现,这可能是一种形式化“足够接近”的方法(或者伽玛模型是正确的,但实际上实际上可以肯定,它会被普通的拟合优度检验所拒绝,
拟合优度检验(通常更广泛地说是假设检验)实际上仅适用于相当有限的情况。人们通常想回答的问题不是那么精确,而是更加模糊和难以回答-但正如约翰·图基(John Tukey)所说,“ 对正确的问题(通常是模糊的)的近似答案要比对问题的确切答案更好。错误的问题,可以总是精确地回答。 ”
相对较模糊的问题,合理的方法可能包括模拟和重新抽样调查,以评估所需分析对您正在考虑的假设的敏感性,而其他情况也与可用数据合理地相符。
(这也是通过污染实现鲁棒性方法的基础的一部分-本质上是通过观察在Kolmogorov-Smirnov意义上处于一定距离内的影响而得出的)ε