统计直觉/数据意义


20

我是一名大二学生,正在学习数学,并且我一直在与一位教授谈论数学能力和统计能力之间的差异。他提出的主要区别之一是“数据意识”,他将其解释为技术能力的结合,同时在一组我非正式地称为“常识性约束”的范围内操作,即在其中看不到问题的现实很多理论。这是我正在谈论的一个示例,该示例出现在Gowers的博客中:

在英国的一些地区,警察收集了有关道路交通事故发生地点的统计信息,确定了交通事故黑点,并在此处放置了高速摄影机,并收集了更多的统计信息。在安装了测速摄像机之后,这些黑点的事故数量肯定会下降。这是否最终表明测速摄像机可以改善道路安全性?

在谈判博弈中主张随机策略的同一个人基本上已经知道了该问题的答案。他说不,因为如果您选择极端情况,那么如果您再次运行实验,您会希望它们不会那么极端。因为没有太多要说的了,所以我决定快速解决这个问题。但是我告诉人们我有一个计划,那就是做一个假的心灵感应实验。我会让他们猜测20次抛硬币的结果,我会尝试将它们抛向心灵。然后,我会选择表现最好的三个和最差的三个,然后再次掷硬币,这次请最好的帮助我将最坏的答案传给我。人们可以轻松地看到,预期性能将得到改善,并且与心灵感应无关。

我要问的是如何通过有关该主题的任何出版物(如果有的话)或通过其他用户发现对开发此技能有帮助的方式,进一步了解这种“数据意义”。如果这个问题需要澄清,我感到抱歉。如果是这样,请发表您的问题!谢谢。


如何撒谎是一个很好的起点。
2012年

醉汉之行还将统计数据放在一个易于访问的常识性框架中。
马库斯·莫里西

Answers:


10

我首先要说的是,我们不应该只是数学。它是统计理论发展的重要工具,统计方法被理论证明是合理的。理论还会告诉您什么地方出了问题以及哪些技术可能更好(例如,效率更高)。因此,我认为数学知识和思考对于成为一个好的统计学家很重要(几乎是必须的)。但这绝对是不够的。我认为评论中引用的书很好。让我给其他人。

理解数据:探索性数据分析和数据挖掘的实用指南

理解数据II:数据可视化,高级数据挖掘方法和应用程序实用指南

统计思维:提高业务绩效

统计在工商业中的作用

统计职业:超越数字

Hahn和Snee的书特别有价值和有趣,因为它们是具有数学技能和实践经验的著名工业统计学家。


7
感谢您的链接和评论。我认为通常可以通过使用[manuscript title](uri) 链接markdown来改善答案。漫长的一天过后,我发现遇到带有长超链接的答案可能会在潜意识中产生震撼力,不幸的是,可能会使读者偏向于本来不错的答案。
jthetzel

@jthetzel我可以看到为什么最好用一个名称代替链接中的URL。当我有时间时,我将学习做。我知道这很容易。但是我给出了三个或四个链接。几乎无需花费时间即可单击链接并查看其内容。所以我真的不明白为什么这么多社区成员为此付出了很多。
Michael R. Chernick 2012年

6

在您提到的示例中,核心问题是因果推理。因果推理的一个很好的起点是安德鲁·盖尔曼(Andrew Gelman)撰写的三本书复习版,以及其中复习的书籍。除了了解因果推理之外,您还应该了解探索性数据分析,描述和预测的价值。

通过听取社会科学家在已发表的作品,博客,研讨会和个人对话中互相批评对方的研究,我学到了很多东西,这有很多学习方法。请关注此站点以及Andrew Gelman的博客。

当然,如果您想进行数据检测,则需要练习处理实际数据。有一般的数据感知技能,但也有特定于问题区域的数据感知,或更具体地说,是特定于特定数据集的数据感知。


5

Chance News Wiki是一个不错的免费资源。它从真实示例中提取了许多示例,并讨论了人们如何解释数据和统计数据的优缺点。通常还会有讨论问题(视力的一部分是给统计学老师一些真实的例子,以便与学生讨论)。


5

+1是个好问题!(到目前为止,对所有答复者+1。)

我认为数据意义很大,但是我认为这没有什么神秘之处。我会用类比来开车。当您在路上行驶时,您只知道其他汽车的状况。例如,您知道您前面的那边的那个人正在寻找应该转弯的路牌,即使他没有使用转弯信号。您会自动识别出缓慢,谨慎的驾驶员,并预测他们在不同情况下的反应。您可以发现这个少年,他只是想尽快参加比赛。您对所有汽车的运行状况都有基于认知的感觉。这与数据意义完全相同。它来自经验,很多经验。如果您对理论足够了解,则只需要开始使用实际数据集即可。您可能对探索DASL这样的网站感兴趣。但是,其中一个条件是,您不仅应该获得加载数据集,运行测试以及获得p值的经验。您将需要探索数据,可能以不同的方式绘制数据,拟合某些模型,并考虑发生了什么。(请注意,EDA在这里已成为通用线程。)

关于此过程的一个可能不明显的事实是,数据感知可以被定位到给定的主题区域。例如,您可能在处理实验数据和ANOVA方面有很多经验,但不一定能很好地了解时间序列数据或生存数据。

让我再添加一个我发现非常有用的策略:我认为值得您花一点时间学习一些(统计)编程。您不必非常擅长(我以编写“通常效率不高”的代码而闻名)。但是,一旦您可以编写一些基本的程序代码(在中进行说明R),就可以进行模拟。对于我来说,很难过分强调即使进行非常简单的仿真也能提供多少帮助。您可以将其用于其中的一件事是,在学习过程中,您读到一些可以探索的属性。例如,如果您(抽象地)知道难以凭经验确定Logit模型或Probit模型对数据集是否更好,则可以对此进行简单的模拟编码并与他们一起玩,以更充分地了解这个想法。这也将为您提供经验,但是类型有所不同,还将帮助您发展数据意识。


+1用于强调从模拟中学习的价值。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.