最令人困惑的统计术语


47

我们的统计学家使用的词语与其他人使用的词语略有不同。当我们教或解释我们在做什么时,这会引起很多问题。我将开始一个列表(现在,我将在每个注释中添加一些定义):

  • 力量是正确拒绝错误的虚假假设的能力。通常,这意味着正确地说“正在发生”。
  • 偏见-如果统计数据与关联的总体参数在系统上有所不同,则该统计数据将产生偏差。
  • 显着性-在以下情况下,结果在统计上具有一定百分比(通常为5%)的显着性:如果样本来源的总体的真实影响为0,则仅会发生至少与样本来源的统计一样极端的统计数据5%的时间。
  • 相互作用-如果因变量和一个自变量之间的关系在另一个自变量的不同级别上不同,则两个自变量相互作用

但是必须有很多其他人!


5
我建议人们也为他们的答案增加一些背景。例子可能是在不同领域中使用不同词的同一个词(固定效应Gelman,2005),或者在不同上下文中具有不同含义的词(意义vs.统计意义Bushway等人,2006)。
安迪W

5
如果回答者可以用一两个句子解释“技术”一词的真正含义,或者是什么可能导致它被认为具有不同的含义,那将是很好的。
chl 2012年

我将在稍后根据您的评论完成回答;-)
ocram 2012年

1
...和“相关性”!
斯特凡·洛朗

1
对于“样本”,请参阅stats.stackexchange.com/questions/20945/…的注释。
whuber

Answers:


21

“显着”是最大的一个我碰上了,因为它既有共同的英语使用的意义,并认为意义将在研究成果的讨论出现。我什至发现自己在谈论统计结果的同一句话中混有“重要”一词,表示重要。

那就是疯狂。


是的,但是没有更好的说法:“我非常确定它很重要,但是我没有对其进行任何测试,也不会这样做,因为它很明显/无法完成/无论如何”
naught101

17

我建议将线性添加到列表中。

我问了一个 关于Math.SE 的问题,关于我作为工程师的想法,认为 给定随机变量的值,对随机变量进行线性 最小均方误差估计(意味着将估计 为,选择和以使最小,并给出部分答案。关于这个问题的评论之一说X ÿ ÿ = 一个X + b 一个b ë [ ÿ - 一个X - b 2 ]YXYY^=aX+babE[(YaXb)2]

“我对您的语言有些不满意,因为我担心这种使用“线性”一词的方式可能会引起普遍的误解,即所谓线性回归的线性回归的原因是一个合适的词。人们认为然后,当统计学家坚持认为人们在拟合抛物线或正弦波等时正在进行线性回归时,就会感到困惑。”

那么,什么线性回归意味着统计学家?


5
网站上有关此答案的相关问题,线性回归中线性代表什么?
安迪W

1
@AndyW那么,您是否可以说Linear属于Peter Flom发起的清单?
Dilip Sarwate 2012年

1
是的,我同意它适合该清单。(+1)
Andy W

4
它很适合该列表,但是出于一个不寻常的原因:“线性”一词的含义已经很好地确立,并在许多面向数学的领域中一致使用。潜在的混乱关系到公式的哪一部分是线性的。
ub

您能否举例说明如何拟合抛物线并仍称其为线性模型?
oneloop

14

可能性

在我看来,与解释假设检验和置信区间有关的大多数问题都源于贝叶斯对概率的定义基于“概率”的定义。例如,p值是零假设为真的概率,而在AFAICS时,概率论中没有任何概率与特定假设的真相相关联。


4
看起来/当谈到/解释置信区间时,那些曾经说(true)参数有95%的几率位于xx和xx之间的人,可能会考虑相同的考虑。
chl 2012年

1
是的,一点没错!
迪克兰有袋博物馆,2012年

1
+1但是,我对您的最后一句话的措词略有不同。在最频繁的设置中,原假设为true的概率为1或0,但您不知道哪个。(严格来说,这不太正确,因为“概率”是长期的相对频率,而“长期的频率”并没有真正适用。尽管如此,当用这种方式表述时,人们可以理解正在说的内容/我们如何理解例如,人们意识到您不能将无效假设的p值用作无效假设为真的概率。)
gung-Reinstate Monica

2
“因为“概率”是长期的相对频率”,很多概率论者会强烈反对这一说法
Dilip Sarwate 2012年

14

“置信度”

很难说服非统计学家,他们的置信区间不是(直接)声明不同参数值的可信度

要确信该术语的技术含义,我们需要想象一些重复的实验,每个实验都以某种预先指定的方式计算一个间隔。要达到95%的置信区间,公式的这些使用中的95%将捕获相关的相关参数。

但是非统计学家通常仅根据一个实验就将“ 95%置信度”解释为有关合理参数值的陈述。通常,他们假设间隔覆盖了有关参数的某些后验信念的95%,即“我们可以确定参数在和之间”。而是定义了一个可靠的间隔。bab

(当然,在某些情况下,这两个概念可能会大致或完全相同。但是总的来说,它们不会,并且数字协议也无法消除滥用技术术语的问题。)


10

“似然”(Likelihood)-在日常语音中与“概率”(probability)同义,但在统计中具有特殊含义:它是统计模型参数的函数,其值是假设参数的观测结果的概率等于参数值。


8

错误。

在统计中,“错误”是实际数据值与模型预测的偏差。

在现实生活中,错误是错误或其他错误。


拼写错误不只是与通信介质的实际(预期)值的偏差吗?我并没有真正看到这是一个不同的词,只是它在不同(但不冲突)的上下文中使用。我很难相信这会给刚接触该领域的人带来困惑。
naught101

2
值可能与预测值不同的一个原因是实验者搞砸了。这就像一个拼写错误。但是,为什么您的体重与您的性别和年龄的所有人的平均体重不同?为什么您的收入与平均收入不同?在统计中,偏离均值是“错误”,但这不是错误,只是变异。
Harvey Motulsky

是的,但是我认为这取决于您的看法。如果您看一眼小学样本中的单词拼写,您将得到变异,变异是由人为造成的,是的,但也并非由实验者造成。您可能会用不同年龄的英语写作看同一件事。我认为您会发现早期英语的可变性更高:)
naught101

@HarveyMotulsky:分析化学以两种方式使用错误。我们谈到系统误差,随机误差和严重误差。教科书:“可以避免重大错误”。
cbeleites支持Monica

8

“推理”

首先,我最难理解的一件事是总体与样本之间的差异。统计人员写出这些奇特的人口水平回归方程,然后突然陷入样本水平工作, s变为 s。我花了很长时间才意识到您正在使用样本水平数据和回归方程来估算总体水平参数。bβb

关于推理的另一个重要部分是中心极限定理。一旦您意识到您只是从总体中进行抽样-尽管抽样是类似于推理的另一个复杂功能-那么您将理解,即使样本均值拥有一个值,该值也不一定与总体中的均值相同。

也许我对您的问题理解得比较松散,但是一旦有人理解了推论或样本与总体之间的差异,那么统计的全部内容就会向他们开放。


7

对我们(或至少对我来说),“样本”的“随机性”表明它代表了“人口”。

在其他人看来,“随机性”有时意味着一个人/事物是不寻常的。


1
我还没有对“随机性”感到困惑。但是,如果您有,那么显然它存在。
彼得·弗洛姆

3
更确切地说,它已经存在
托马斯·莱文

1
在我看来,后者的“随机”用法很新。出于这个原因,我觉得这有点烦人(这只会使统计数据更加难以理解)。当我听到用它在这个意义上说自己这是更讨厌..
naught101

5

我认为应该区分混淆公众的术语和混淆统计学家的术语。以上建议大部分是统计学家熟知的术语,并且(可能)被公众误解了。我希望在列表中添加一些统计学家容易理解的术语:

  • 贝叶斯:最初指的是现在称为主观贝叶斯(又称认知贝叶斯,De-Finetti)。今天,该术语将在贝叶斯规则出现时随时使用,很少在主观信念的背景下使用,这被认为是决策理论。
  • 经验贝叶斯:最初指的是具有非参数先验的频繁设置。今天,通常将意味着参数(客观)先验的参数是估计值,而不是先验的。即,曾经被称为II型最大可能性。
  • 非参数:有时指“无模型”。有时要“免费发行”。如今,“参数”模型可能包含数百万个参数,实际上已变得毫无意义。
  • III型错误:有时是指符号错误。有时是指模型的规格不正确。

当我问时,我的意思是“使公众感到困惑的术语”,但肯定会给统计学家带来困惑的术语也值得
一一

这可能应该分为单独的答案。
naught101 '04

4

生态学,通常用于指生物系统,但也有统计谬误。从维基百科:

生态谬误(或生态推断谬误)是生态研究中统计数据解释中的错误,由此对特定个体性质的推断仅基于针对这些个体所属的群体收集的汇总统计信息。这种谬论假设一个小组的每个成员都具有整个小组的平均特征。


3

“调查”是数学类型(“调查抽样”)还是一张纸(“问卷”)?

我尚未对此进行调查,但是我怀疑很多公众认为后者是“调查”。我进一步怀疑他们不考虑前者。


2
是不是由验船师进行的调查?;)
zbicyclist 2012年

3

“载荷”,“系数”和“重量”;在谈论主成分分析时。

我通常会发现人们在使用它们时是非常特别的,他们在不首先定义其含义的情况下互换使用它们,而我实际上遇到过涉及“加载向量”的论文,有时是指PC本身,有时也指PC。与特定的PC相关联。

Jollifee关于Principal的出色参考可能在第1.1节的末尾说明:“有些作者根据所使用的归一化约束来区分术语“载荷”和“系数”,但在本书中将可以互换使用。” 只是让人们认为他们有免费通行证,可以根据自己的喜好混合和匹配术语。...


1

附加模型。仍然不太确定这意味着什么。我认为它是指没有交互作用的模型。但是随后,我将看到一篇文章,他们将其用于引用其他内容,即样条模型。


0

我最困惑的术语之一是“混淆矩阵”。当然,使用的术语本身是令人困惑的,而不是概念。

我试图跟踪该词的历史,这也很有趣。混淆矩阵由(http://en.wikipedia.org/wiki/Karl_Pearson)于1904年发明。他使用了http://en.wikipedia.org/wiki/Contingency_table一词。它出现在FRS的Karl Pearson(1904)。对进化论的数学贡献(PDF)。Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

在第二次世界大战期间,开发了ttps://en.wikipedia.org/wiki/Detction_theory作为对刺激与反应之间关系的研究。在那里使用混淆矩阵。

由于检测理论,该术语被用于心理学。从那里开始,术语达到了机器学习。

看来,尽管该概念是在统计学中发明的,但与机器学习非常相关,但在绕开了100年的时间后,它就进入了机器学习。

有关该术语用法的一些参考,请参阅: 术语混淆矩阵的起源是什么?


-4

“统计”

对公众来说,是“现在我要对你说谎,用你不理解的方式讲话”的替代词。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.