我在《自然》杂志上读过这篇文章,其中在数据分析的背景下解释了一些谬误。我注意到德州神枪手的谬误特别难以避免:
德州神枪手的寓言说明了在数据分析过程中等待的认知陷阱:一个无能的射手,他在谷仓侧面发射随机的子弹图案,围绕最大的子弹孔绘制目标,并自豪地指向他的成功。
他的靶心显然是可笑的-但对于那些在连胜的过程中相信“一手好牌”的赌徒,或者在所有奇数都出现彩票时看到超自然意义的人来说,谬论并不那么明显。
对于研究人员来说也不总是很明显。“您只是从数据中得到一些鼓励,然后思考,这是走下坡路,” Pashler说。“您没有意识到自己有27种不同的选择,而是选择了一个给您最满意或最有趣的结果的选择,现在您从事的并不是完全无偏的数据表示。”
我认为这种探索工作是司空见惯的,而且通常是在那部分分析的基础上建立假设的。有一个专用于此过程的整体方法(EDA):
约翰·图基(John Tukey)倡导探索性数据分析,以鼓励统计学家探索数据,并可能提出可能导致新数据收集和实验的假设
似乎在没有事先假设的情况下执行的任何探索性过程都容易产生虚假假设。
请注意,上面对EDA的描述实际上是在谈论new data collection and experiments
。我了解到,在收集了新数据之后,就需要进行验证性数据分析(CDA)。但是,我认为这种区分并不十分清楚,尽管将EDA和CDA分开是理想的,但是肯定在某些情况下这是不可行的。我要说的是,严格遵循这种分离并不常见,而且大多数从业人员根本不赞成EDA范式。
所以我的问题是:EDA(或任何非正式的数据浏览过程)是否会使德州神枪手的谬误更有可能崩溃?