可视化数据后执行统计测试-数据挖掘?


31

我将通过一个示例提出这个问题。

假设我有一个数据集,例如波士顿住房价格数据集,其中有连续的和分类的变量。在这里,我们有一个“质量”变量(从1到10)和销售价格。通过(任意)创建质量截止值,我可以将数据分为“低”,“中”和“高”质量房屋。然后,使用这些分组,我可以绘制销售价格的直方图。像这样:

房屋质量和销售价格

在此,“低”是,和“高”是> 7上的“质量”的分数。现在,我们可以得出三个组中每个组的销售价格分布。显然,中型和高质量房屋的位置中心不同。现在,完成所有这些操作后,我认为“嗯。位置中心似乎有所不同!为什么不对均值进行t检验?”。然后,我得到一个p值,它似乎正确地拒绝了均值没有差异的零假设。3>7

现在,假设在绘制数据之前,我没有想到要检验此假设。

这是在挖泥吗?

如果我想:“我敢打赌,优质房子的价格会更高,因为我以前是住在这所房子里的人。我要对数据进行绘图。啊哈!看起来不一样!时间还在吗?”进行t检验!”

自然地,如果收集数据集是为了一开始就检验这个假设,那不是数据挖掘。但是通常必须处理提供给我们的数据集,并被告知“寻找模式”。考虑到这个模糊的任务,某人如何避免数据挖掘?创建测试数据的保留集?可视化是否“算作”窥探机会来测试数据提出的假设?

Answers:


27

简短地不同意@ingolifs的回答/提出反对意见:是的,可视化数据至关重要。但是在决定进行分析之前先进行可视化处理,您就会进入Gelman和Loken的分叉路径花园。这与数据挖掘或p-hacking不同,部分原因是通过意图(GoFP通常是很好的手段),部分是因为您可能不会运行多个分析。但这一种监听的形式:因为您的分析依赖于数据,所以它可能导致您得出错误或过于自信的结论。

你应该以某种方式决定你有什么打算分析(例如,“高品质的房子应该是在价格较高的”),并把它写下来(或者甚至是正式预注册吧)(你看你的数据它的确定,看看之前的预测变量前进,而不是响应变量,但是,如果您确实没有先验的想法,那么您甚至都不知道哪些变量可能是预测变量,哪些可能是响应);如果您的数据建议进行其他分析或其他分析,则您的文章可以说明您最初打算做什么以及您打算做什么(以及为什么要做)。

如果您确实在进行纯粹的探索(即您没有先验假设,那么您只想查看数据中的内容):

  • 您对拿出样本进行确认的想法很好。
    • 在我的世界(我不使用庞大的数据集)中,由于样本量较小而导致的分辨率损失令人痛苦
    • 如果您以任何方式(地理位置,时间序列等)对数据进行结构化,则在选择保持样本时需要谨慎一点。好像数据是iid一样进行二次抽样会导致过度自信(请参阅Wenger and Olden Methods in Ecology and Evolution 2012),因此您可能希望选择地理单位来坚持下去(例如,请参阅DJ Harris 在Ecology and Evolution中的Methods 2015)。
  • 您可以承认您只是在探索。理想情况下,在这种情况下,您应该完全避开p值,但是至少告诉您的听众您正在GoFP中徘徊,这会让他们知道,他们可以采用大量的盐来吸收p值。

我最喜欢的“安全统计实践”参考是Harrell的回归建模策略(Springer)。他以严格但实用的方式为推理,预测和探索提供了最佳实践。


4
很好放!我希望将来能使人们参考这个答案。
Great38

正是我想要的那种回复,谢谢。我认为这个回答是一个答案。您是否知道任何可以教授安全统计实践的资源?范围可能比您发布的(优秀)文章还要广一点
Marcel

很好的答案(+1),但我不同意这与数据挖掘有什么不同;意图无关紧要-效果是一样的。
恢复莫妮卡

我实际上认为有必要在不同形式的监听之间保持区别。疏可以说是更严重的,因为它涉及(1)多个显式测试而不是多个隐式测试,以及(2)有条件/连续测试,直到达到p <0.05(或任何其他值)。定性效果肯定是相同的。
本·博克

11

可视化数据是分析中必不可少的部分,并且是处理不熟悉的数据集的第一件事。快速浏览一下数据可以告知下一步要采取的步骤。确实,通过查看图表应该可以很明显地看出均值是不同的,而且我不确定为什么需要进行T检验来确认这一点-均值已经足够分开,因此图本身就是我所愿意提供的所有证据要求。

据我从快速的Wikipediaing得知,数据挖掘是一个故意处理数据的过程,以强制进行一定程度的拟合。例如:将数据集与一些随机数进行比较,但是重新生成随机数,直到获得一组有利的数或尝试大量不同形式的回归并选择最佳的回归数为止。[R2不管这些假设是否合适。数据挖泥似乎并不是偶然可以轻易完成的事情。

我认为这里还有一个更深层次的问题。在以科学的方式处理数据时,如何保持禅宗般的中立性并避免偏见? 答案是,你不会。或更确切地说,您不必这样做。形成预感和假设,并对数据的含义进行脑力叙述,这是完全自然且可以接受的,只要您知道自己正在这样做,并且在面对冲突的数据时就做好了重新考虑所有这些假设的心理准备。


7
在这种特定情况下,运行测试之前可视化数据可能是无害的。但是,接下来将可视化另一个维度……另一个维度……并查看散点图……不久,人们将发现一些看起来“足够明显”的东西,因此正式的测试和叙述自然而然。哦,是的,数据疏definitely绝对是您偶然可以轻松完成的事情。参见盖尔曼的《叉路花园》
S. Kolassa-恢复莫妮卡'18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.