“无免费午餐定理”是否适用于一般统计检验?


12

我正在工作的一位女士要求我对某些数据进行单向方差分析。我回答说,这些数据是重复测量(时间序列)数据,并且我认为违反了独立性的假设。她回答说,我不必担心这些假设,只需进行测试即可,她会考虑到可能未满足这些假设。

在我看来,这似乎不合适。我进行了一些研究,发现David Robinson撰写的精彩博客文章说,K-means聚类不是免费的午餐,这使我接触了“免费午餐”定理。我看了看原始论文,然后看了一些后续内容,坦率地说,数学有点让我头疼。

根据大卫·罗宾逊(David Robinson)的说法,其要旨似乎是统计检验的力量来自其假设。他列举了两个很好的例子。当我浏览有关它的其他文章和博客文章时,似乎总是从监督学习或搜索的角度来引用它。

所以我的问题是,该定理是否普遍适用于统计检验?换句话说,可以说t检验或ANOVA的功效来自对假设的坚持,并引用了“免费午餐定理”吗?

我欠前老板一份关于我所做工作的最终文件,我想知道我是否可以参考“免费午餐定理”来说明您不能仅仅忽略统计检验的假设,并说您会考虑到这一点在评估结果时考虑。


4
您为什么不“秘密地”重复测量方差分析?
HorstGrünbusch15年

1
@HorstGrünbusch实际上,之前已经在论坛上讨论了数据和测试,并提出了有关重复测量方差分析的特定问题,事实证明,线性混合效应模型可能是最佳选择。
rwjones

2
这已经得到很好的回答,因此可以添加更轻率的响应。您可以问您的老板,她究竟将如何考虑违反假设的后果(“谨慎”总比没有好!)。简而言之,要获得足够的理解和经验以知道何时可能对假设不小心,是一条漫长而艰难的道路。鲁珀特·米勒(Rupert G. Miller)的《超越方差分析》(纽约:威利出版社,1986年及以后重印)是后果的很好来源,其中一个主要主题是,忽视独立性假设是您可以做的最危险的事情之一。
尼克·考克斯

1
@NickCox好吧,她不再是我的老板,这种特殊情况是主要原因。从根本上讲,这是她在本来就不错的研究环境中进行大量草率思考和草率项目管理的结果。除此之外,感谢您的推荐书。从它的声音来看,这是我希望在最终报告中引用的内容之一。
rwjones

Answers:


11

我不知道证据,但我敢打赌,这通常适用。一个示例是在2个治疗组中的每个受试者中有2名受试者的实验。Wilcoxon检验在0.05水平上可能不显着,但t检验可以。您可以说,它的功能来自其假设的一半以上,而不仅仅是数据。对于您最初的问题,不宜像每个主题的观察都是独立的那样进行。除非在非常特殊的情况下(例如,群集三明治估计器),否则在事实之后考虑事物当然不是很好的统计实践。


2

你可以举没有免费的午餐定理,如果你想要的,但你也可以只举肯定前件(也被称为支队法,演绎推理的基础上),这是根没有免费的午餐定理

没有免费的午餐定理包括更具体的想法:事实上,没有算法,可以适应各种用途。换句话说,没有免费午餐定理基本上是在说没有算法魔术子弹。这源于Modus Ponens,因为要使算法或统计测试给出正确的结果,您需要满足前提条件。

就像在所有数学定理中一样,如果您违反前提,那么统计检验就是毫无意义的,您将无法从中得出任何真相。因此,如果您想使用测试来解释数据,则必须假定满足要求的前提,如果前提不满足(并且您知道),则测试是完全错误的。

那是因为科学推理是基于推论的:基本上,您的检验/定律/定理是一个蕴涵规则,它说,如果您拥有前提,A那么您可以得出结论BA=>B,但是如果您没有前提A,那么您可以拥有B或并非B,并且两种情况都成立,这是逻辑推理/推论的基本原则(“模态法则”规则)。换句话说,如果您违反了前提条件,那么结果就无关紧要,也就无法推断出任何东西

记住含义的二进制表:

A   B   A=>B
F   F    T
F   T    T
T   F    F
T   T    T

因此,为简化起见,您有Dependent_Variables => ANOVA_correct。现在,如果使用自变量,Dependent_Variables则为False,则隐含含义为真,因为Dependent_Variables违反了假设。

当然,这很简单,在实践中,由于因变量之间几乎总是存在一定程度的独立性,因此您的ANOVA检验仍然可能返回有用的结果,但是这使您了解了为什么不满足假设就不能依靠检验。

但是,您还可以通过减少问题来使用原始模型不满足的前提测试:通过显式放宽独立性约束,结果可能仍然有意义,尽管不能保证(因为您的结果适用于减少的问题,而不适用于完整的问题,因此除非您可以证明新问题的其他约束不会影响您的测试并因此影响您的结果,否则您无法翻译所有结果。

在实践中,这是经常被使用朴素贝叶斯例如,通过模拟来模拟实际的数据,相关的(而不是独立的)使用一个模型,假设自变量,变量出奇它的作品往往非常好,有时胜过车型占依赖。您还可能对以下问题感兴趣,即当数据不能完全满足所有期望时如何使用ANOVA

总结:如果您打算使用实际数据,而您的目标不是证明任何科学结果,而是要制作一个可以正常工作的系统(即,Web服务或任何实际应用程序),那么就需要独立性假设(也许还有其他假设)可以放松,但是如果您要尝试推论/证明一些一般性真理,那么您应该始终使用可以在数学上保证(或至少安全且可证明地假设)满足所有前提的测试


2
如果我正确理解了您的论点,那么您首先要说,没有完全满足假设条件的统计应用是无效的。如果为真,这确实是一个坏消息。大多数计量经济学书籍(仅举一个例子)都花时间解释它是错误的(一个单词的摘要),并且详细地详细说明了原因。但是,您似乎在中间改变了策略,所主张的却变得模糊。即使在逻辑上无效,以某种方式处理数据也会听起来不错。因此,我在这里看不到明确的建议。
尼克·考克斯

关键是:如果违反了前提条件,则由于推论是有偏见的,因此您不能以面值获得测试结果。但是,您仍然可以尝试一下,如果您有足够的信心和经验,仍然可以从中学到一些东西,但是主要是在实际上不关心科学推理的实际实现中(您只是尝试建模)数据用于某些实际目标,而不是试图推断出一些关于世界的有充分根据的一般事实)。因此,我的回答不是“一言以蔽之”,这只是一般情况(错误)与特定情况(可以)。
令人惊讶的2015年

PS:我的陈述不仅涉及统计应用,而且涉及任何逻辑或数学定理/规则/检验的任何应用,对于使用推理和归纳的任何推理都是如此。但我对您的计量经济学书籍参考文献感兴趣,您在对OP的问题的评论中提供的其他参考文献非常相关。
令人惊讶的2015年

感谢您添加评论,但是我不得不说,我认为您的陈述不是特别清楚或没有充分根据。我看不到有工作的科学家(我是其中之一)会掌握您在用于科学推理和实际目标的数据分析之间的区别。除了推荐像杰夫·沃尔德里奇(Jeff Wooldridge)这样的教科书外,我将留在那儿,因为这些教科书实际上是对假设至关重要的论点,而论点并不重要,并且两者之间有很大的灰色区域。amazon.com/Jeffrey-M.-Wooldridge/e/B001IGLWNY
Nick Cox

感谢您的参考。我刚刚发现了另一个问题,他们提到了一篇论文,该论文解释了为什么天真独立性假设仍然可以对具有因变量的数据起作用:彼此之间的功能相似/功能之间的对立” stats.stackexchange.com/a/23491/25538
令人眼花
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.