最难掌握的统计概念是什么?


32

这是与这里的问题类似的问题,但与我认为值得提出的问题足够不同。

我以为我是一个入门者,我认为最难掌握的东西之一。

我的是概率频率之差。一个处于“对现实的了解”(概率)的水平,而另一个处于“现实本身”(频率)的水平。如果我考虑太多,这几乎总是让我感到困惑。

埃德温·贾恩斯(Edwin Jaynes)创造了一个称为“思维投射谬论”的术语,用以描述将这些东西混为一谈。

对其他难以把握的概念有什么想法吗?


(我不知道如何回答这个问题,因此添加了评论。)我一直认为PI出现在统计方程中很奇怪。我的意思是-PI与统计有何关系?:)
恢复莫妮卡-再见SE

2
我同意(在我的意外中)-我认为在许多数学分析中都会出现。只需注意,您可以使用Latex命令将π编写为\ pi放在$符号内。我使用Wiki页面获取语法en.wikibooks.org/wiki/LaTeX/Mathematics。另一个技巧是“右键单击”在此站点上看到的方程式,然后选择“显示源代码”以获取所使用的命令。ππ\pi
概率

@Wiki如果您接受从测量一条直线的长度到一条圆的长度时突然变大的观点,那么我不明白为什么从测量掉落概率来看它不会出现在一段上测量掉下一个圆的概率?π
罗宾吉拉德

@Wiki每当您具有三角函数(正弦,余弦,切线等)时,都可能会弹出。请记住,每当派生一个函数时,您实际上都在寻找切线。令人惊讶的是,π不会出现频繁。ππ
卡洛斯·阿西里

@Carlos我怀疑患病率大多是由于使用的2度,导致正球。本着同样的精神,我希望它的ê,其患病率是由于分析。2π2e
sesqu 2011年

Answers:


31

由于某些原因,人们很难理解什么是p值。


3
@shabbychef:大多数人都以最糟糕的方式来掌握它,即发生I型错误的可能性。
suncoolsu 2011年

2
我认为这主要与在类中解释p值的方式有关(即:只是给出一个快速定义,而未指定不是p值)
nico

我认为这主要与它的引入方式有关。对我来说,这是经典假设检验的“附加”-因此,它似乎只是进行假设检验的另一种方法。另一个问题是,通常只针对正态分布进行讲授,其中一切“正常”(例如,p值)检验正态均值的证据度量)。对p值进行归纳并不容易,因为没有具体的原则可以指导归纳(例如,对于p值应如何随样本数量和多重比较而变化没有达成普遍共识)
概率

@shabbychef +1尽管学生经常会遇到p值的困难(这是因为测试中的概念比二进制决策过程要微妙得多,并且导致“求函数反转”并不容易理解)。当您说“出于某种原因”时,您是不是很清楚人们为什么会遇到困难?PS:如果可以的话,我会尝试在此站点上统计“成为最佳答案”和“谈论p值”之间的关系:)。我什至还问自己,最难掌握的统计概念是否可以得到最多的支持(如果很难掌握……:))
罗宾吉拉德

1
@eduardo-是的,足够小的p值足以引起对原假设的怀疑:但是它是完全独立于替代方法而计算的。仅使用p值,就永远不会正式“拒绝” ,因为尚未指定替代项。如果您正式拒绝H 0,那么您还必须拒绝基于H 0为真的假设的计算,这意味着您必须拒绝在此假设下得出的p值的计算(它弄乱了您的头脑) ,但这是始终如一地推理的唯一方法)。H0H0H0
概率

23

类似于shabbychef的回答,很难理解频繁统计中置信区间的含义。我认为最大的障碍是置信区间不能回答我们想回答的问题。我们想知道,“真值在这个特定间隔内的机会是多少?” 相反,我们只能回答“以这种方式创建的随机选择的间隔包含真实参数的机率是多少?” 后者显然不令人满意。


1
我对置信区间的思考越多,我就越难以思考他们可以在概念层面回答什么样的问题,而这些问题无法通过询问“给定某个人的真实状态,某个真实值在区间内的机会”来回答。知识”。如果我要问“(根据我的信息为条件)2010年的平均收入在10,000到50,000之间的机会是多少?” 我认为置信区间理论不能回答这个问题。
概率逻辑


13

条件概率可能导致大多数 日常经验中的错误。当然,有许多更难理解的概念需要掌握,但是人们通常不必担心它们-他们无法逃避这个问题并且是泛滥成灾的根源。


+1; 您能否添加一个或两个示例,“收藏夹”或“当前”?
denis

1
对于初学者:P(测试结果为阳性)!= P(测试结果为阳性)。
xmjx 2011年

9

我认为很少有科学家能理解这一基本观点:如果事先计划了每个步骤,就只能从表面上解释统计分析的结果。特别:

  • 样本大小必须提前选择。当添加更多主题时,不可以继续分析数据,当结果看起来不错时就停止。
  • 还必须预先确定用于标准化数据或排除异常值的任何方法。在找到所需结果之前,无法分析数据的各个子集。
  • 最后,当然,必须预先确定统计方法。通过参数和非参数方法分析数据并选择所需的结果是否可行?

探索性方法对于探索非常有用。但是,您将无法转而运行常规的统计测试并以通常的方式解释结果。


5
我认为John Tukey可能会不同意en.wikipedia.org/wiki/Exploratory_data_analysis ; o)
Dikran Marsupial 2011年

3
在这里我会部分不同意。我认为人们想念的警告是,对于此类问题,适当的调节操作很容易被忽略。这些操作中的每一个都会更改推断的条件,因此,它们也会更改其适用性的条件(并因此更改其一般性)。这些绝对仅适用于“确认分析”,其中已经定义了明确的模型和问题。在探索阶段,不希望回答明确的问题-而是希望建立模型并为数据提出假设。
概率

我对答案做了一些修改,以考虑到Dikran和概率概率论的评论。谢谢。
哈维·莫图尔斯基

1
对我来说,“排除异常值”并未明确错误的答案暗示。例如,您可能只对某些响应范围内的关系感兴趣,而排除异常值实际上可以帮助这种分析。例如,如果要对“中产阶级”收入建模,那么排除超级富裕和贫困的离群值是个好主意。您的评论仅适用于您的推论框架内的异常值(例如“奇怪的”中产阶级观察结果)
概率

2
最终,最初答案中提出的问题的真正问题是它们(至少部分地)使p值无效。如果您有兴趣量化观察到的效果,则应该能够不受惩罚地进行上述所有操作。
russellpierce,

9

舌头紧紧贴在脸颊上:对于常客来说,贝叶斯概率的概念;对于贝叶斯主义者,频率论是概率论。; o)

两者当然都有优点,但是如果您对另一个框架的把握过于坚定,那么很难理解为什么一个框架有趣/有用/有效。交叉验证是一种好方法,因为提问和听答案是一种学习的好方法。


2
我规则是我要记住:使用概率来预测频率。一旦观察到频率,就可以使用它们来评估您分配的概率。不幸的是,您分配的概率通常等于您观察到的频率。我总是发现奇怪的一件事是为什么常客甚至使用概率一词?如果使用短语“事件的频率”而不是“事件的概率”,是否会使他们的概念更容易理解?
概率

p(x)L(xn,x)dxi=1i=nL(x[ni],xi)xnx[ni]xi

8

根据我的个人经验,可能性的概念也可能引起很多轰动,尤其是对于非统计学家而言。正如维基百科所说,它经常与概率的概念混为一谈,这并不完全正确。



6

除了如何使用之外,不同分布的真正含义是什么。


3
这是我在统计101之后发现最令人分心的问题。我会遇到许多分布,除了与当前主题相关的“属性”外,没有其他动机。花费了很长时间才能找出任何代表的内容。
sesqu 2011年

1
最大熵“思考”是一种有助于理解分布是什么的方法,即知识状态(或某种事物的不确定性的描述)。这是在所有情况下对我来说都有意义的唯一定义
概率


5

我认为这个问题可以用两种方式解释,这将给出截然不同的答案:

1)对于学习统计学的人,尤其是处于相对较高水平的人们,最难掌握的概念是什么?

2)大多数人会误解哪个统计概念?

对于1)我根本不知道答案。也许是来自测度理论的东西?某种类型的整合?我不知道。

对于2)p值,请放手。


测度理论既不是统计学领域,也不是硬性的。某些类型的集成比较困难,但是,这又不是统计数据。
pyon 2011年

5

非贝叶斯传统中的置信区间是一个困难的过程。


5

我认为人们几乎是第一次就想念这条船。我认为大多数学生不了解的是,他们通常是根据样本估算参数。他们不知道样本统计量和总体参数之间的区别。如果您将这些想法付诸实践,那么其他事情应该会更容易一些。我敢肯定,大多数学生也不了解CLT的症结所在。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.