具有特殊统计意义的常用词


12

我不是统计学家,但我的研究工作涉及统计学(分析数据,阅读文献等)。我在这里发表的一个问题的评论再次提醒我,对于那些在统计学领域有良好实践经验的人,有些常用词具有特别的含义或内涵。

列出此类单词可能会有所帮助,并且可能是短语以及一些注释。


1
听起来像是Community Wiki的候选人。
Glen_b-恢复莫妮卡2013年

@Glen_b考虑到几乎所有统计学或数学术语都符合条件,它可能会变得特别庞大。有什么办法可以有意义地缩小这个问题的范围?
ub

3
@whuber是的,它有可能变得过于广泛。诸如“通常会引起混乱”之类的内容足以缩小范围吗?
Glen_b-恢复莫妮卡

我认为,胜任的统计学家通常会很好地掌握其母语,并且会充分意识到他们何时使用行话,需要向非专业听众正确解释。
罗伯·琼斯

@Glen_b我不确定。这是如此广泛,我几乎无法开始列出应涵盖的单词:准确性,偏差,校准,辨别力,连续性,分布,危险,生存,样条,模型,响应,自举,调整,聚类,条件,置信度,密度,估计,变量,规范,相关性,预测,推论,审查,风险,一致性,后勤,限制,覆盖率,混淆,偶然性,收敛性,对应关系,自由,偏差,指数,极端,范围,正常,可插拔,虚拟,解释了[变化],因子,故障,填充,拟合,拟合,功能等...
呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜呜差距缝把我们将分别为

Answers:


12

重要的 ”-在这里,该词的通用语言含义是“重要”或“有意义”。统计意义在非正式上更接近于“可以从零值的随机变化中看出”;它并不表示差异足够大。

以下是一些示例,其中的区别可能是造成混淆的原因:1 2

参数 ”-似乎经常发生-特别是在科学实验中-“参数”一词的使用与统计学家使用“变量”一词的方式相同。维基百科这样说:

统计参数是索引一系列概率分布的参数。可以将其视为总体或模型的数字特征

例如,这可能是一个问题:1-可能是导致此问题的帖子。(我最近看到了另一个,但现在找不到它)


11

“错误”-在统计中,它通常表示观测值与预测值之间存在任何偏差。在现实生活中,这意味着一个错误。


11

我找到了2010年的一篇审阅此问题的论文。

安德森·库克(CM)。隐藏的行话:日常用词,具有统计专用的含义。ICOTS8,国际教学统计会议,斯洛文尼亚卢布尔雅那,2010年7月11日至17日。

该论文可在线免费获得,因此,我仅提供作者讨论的术语的部分列表:

 confounding, control, factor, independent, random, uniform

10

我遇到了像“伪造假设”中那样使用“伪造”的问题,而其他人则认为我指的是“构成数据”。同样,在不引起混乱的情况下,几乎不可能提及“ 偏见 ”。


6

“正常” -在普通的言语中,正常是指预期的结果,并非与众不同。在统计中,如果变量是正态分布的,则是指高斯分布。我不认为将“正常”一词大写以区别于通常的语音含义是标准的。

“归一化/标准化” -在统计数据中,对变量进行归一化意味着减去均值并除以标准差。

“标准偏差与标准误差” -标准偏差通常是使用整个总体计算得出的,而标准误差是使用样本计算得出的。


1
我真的怀疑“标准错误”是一个“常见的(常规的,非统计的)单词”,其特殊的统计意义不同于该单词的其他用法(实际上是措词)。同上表示“标准化”和“标准偏差”。
ub

也许不是“标准化”,而是“正常”是一个好主意,因此也将是“标准化”,它也用于描述旨在建立国家标准的测试(例如,在教育中,例如在没有孩子离开美国之后的美国)背后)。我同意“标准偏差”不太可能引起混淆,尽管通常来说,“偏差”本身更可能带有负面含义(尤其是“偏差”的代名词)。
Nick Stauner 2013年

这是区分SD和SEM的另一种方法。标准偏差可量化变化或散射。标准误差量化了计算值的精度。
哈维·莫图尔斯基

@HarveyMotulsky我认为最好的方法是想到一个小行星(不规则形状)。小行星的质心是什么?这一点与所有其他点等距。就是那个意思 标准偏差是多少?它是每个点到中心的“平均”距离,是大小的度量。什么是SEM?它告诉您如何确定小行星中心的位置。
Flask

我发现说标准误是使用“样本”计算得出的标准差,这有点不幸。对我来说,这就是样本方差的平方根,而标准误差是检验统计量的标准偏差。而且,从上述术语来看,只有“正常”才是真正常见的。但是我想那是正常的……
意味深长的

2

“参数”与“非参数”:需要“正常”或“非正常”数据的测试类别。参数测试优于非参数测试。

常见检验:T检验(配对),Mann-Whitney U,ANOVA,Anderson-Darling等。

其他术语包括“重要”。这是数据是否表明您的假设有效的一种度量。当您以某种可能性(通常为95%)检验假设时,“ p值”小于0.05表示您将拒绝“零假设”(即数据集没有不同)并接受“替代假设”(即数据集不同)。


2

统计数据的偏斜意味着分布不对称。

在普通语言中,甚至在科学领域,歪斜现象经常(并且越来越多地)用来表示统计人员通常所说的偏见,如“通过包括这么多篮球运动员而使平均身高的结果歪斜”。


2

估计 -在统计中,它是计算的结果。例如,样本均值是总体均值的估计,均值的置信区间是总体均值的区间估计。这些都是精确计算的结果。“估计”是一种尝试从样本数据中推断总体的精确概括。

在通常使用中,“ 估计 ”一词是指有根据的猜测或预感,或近似计算的结果。


2

θXL(θ|X)=Pr(X|θ)

代表 -在日常用语和科学用语中都有一些有时是矛盾的含义。参考Kruskal&Mosteller 1979a1979b1979c1980。我认识的大多数统计学家都会以已知概率抽样作为样本代表。我所知道的大多数外行人都认为,如果边际分布类似于人口,它就具有代表性。


2
  • 样本:虽然在统计中是指一组案例,但在许多其他学科中,样本是一个物理样本。当然,样本数量也是模棱两可的,是指统计样本中的病例数或样本的物理大小(质量,体积等)。

  • 敏感性:用于医学诊断,测试可识别出患病病例的比例。在分析化学中:校准曲线的斜率(请参见下文)。

  • 特异性:在医学诊断中,由测试正确识别的非疾病病例的比例。在分析化学中,如果没有交叉敏感性,则该方法是特定的。

  • 标定:实际上,Wiki文章中已经列出了两种含义以供统计。在化学和物理学中,反向回归的含义是通常的含义。但是,会产生混乱:

    • 在化学计量学中,(正向)校准对取决于浓度的测量信号建模:。然后对浓度预测求解:。反校准模型。因此,正向模型与因果关系一致(分析物的浓度会引起信号,而不是相反),但是反模型则对用于预测的方向进行建模。 (在实践中,通常可以说的误差或的误差要大得多,并且应该从中选择合适的建模方向)Ç = ˚F Ç ç Ç = ˚F - 1Ç = ˚F Ç IcI=f(c)cc=f1(I)c=f(I)
      cI
    • 我已经看到了预测概率相对于真实概率的图,称为“校准图”(统计人员)。在分析化学中,相应的校准图将是在测得信号(通常是其他单位)上的预测概率。预测的真实因变量上的图通常称为恢复曲线
  • 验证集:在这里,我想提请注意可能会混淆使用的术语,尽管我再次对比,但我认为这些术语已经出现与统计相关的不同字段中。在嵌套/双重验证或优化与验证/测试的上下文中,一行术语将训练(validation)-测试(test)分开,并使用“ validation”集来优化超参数。
    例如,《统计学习要素》,第2页。第二版222。

    ...将数据集分为三部分:训练集,验证集和测试集。训练集用于拟合模型;验证集用于估计模型选择的预测误差;测试集用于评估最终选择的模型的泛化误差。

    相比之下,例如在分析化学验证中,该过程证明了该模型(实际上,对最终模型的评估只是分析方法验证的一部分)对于该应用程序而言效果良好,并可以衡量其性能,例如,参见John K. Taylor:分析方法的验证,《 Analytical Chemistry 1983 55(6)》,600A-608A 或FDA等机构的指南。这将是另一行术语中的“测试”,其中“验证”实际上用于优化。
    关键区别在于,“优化验证”结果将用于更改(选择)模型,而经过验证的分析方法(包括数据分析模型)的更改意味着您必须重新验证 (即证明该方法仍然可以正常工作)。


如果您碰巧需要与化学家交谈,则最好使用Danzer:分析化学术语-分析化学-理论和计量基础知识,DOI 10.1007 / b103950

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.