描述性统计和推理性统计有什么区别?


21

我的理解是,描述性统计定量地描述了数据样本的特征,而推论统计则推断出抽取样本的总体。

但是,用于统计推断维基百科页面显示

在大多数情况下,统计推断使用有关人群的命题,这些数据是通过某种形式的随机抽样从感兴趣人群中得出的。

“大部分”让我觉得我可能没有正确理解这些概念。是否有一些推论统计的例子没有对总体提出建议?


描述性统计:一枚硬币被抛了十次,跌落了六次。统计推断:Heads概率的最大似然估计为,或者,此信息不足以拒绝硬币是公平硬币的假设。0.6
Dilip Sarwate 2013年

2
没有“人口”概念的推论:假设您的数据是由某些(部分)未知的随机机制/规则生成的。推论方法允许根据数据评估此机制的属性。示例:您要基于只能近似或在不完美条件下测量的结果来验证电物理公式。
Michael M

1
@迈克尔:是的;或者实际上使的试验性治疗的随机分配-您的数据由已知的随机机制产生。
Scortchi-恢复莫妮卡

Answers:


19

来自行为科学背景,我将此术语特别与入门级统计教科书联系在一起。在这种情况下,区别在于:

  • 描述性统计信息 是样本数据的功能,在描述数据的某些特征时本来就很有趣。经典的描述统计信息包括平均值,最小值,最大值,标准偏差,中位数,偏斜,峰度。
  • 推论统计数据是样本数据的函数,可帮助您得出有关总体参数假设的推论。经典推论统计包括Z,T,,F-比等χ2

重要的一点是,任何统计数据(推断性或描述性)都是样本数据的函数。参数是总体的函数,其中术语“总体”与所说的基础数据生成过程相同。

从这个角度来看,数据的给定功能作为描述性或推断性统计信息的状态取决于您使用数据的目的。

也就是说,某些统计数据显然在描述数据的相关特征方面更为有用,而某些统计数据非常适合于辅助推理。

  • 推论统计量: 对于给定的数据生成过程(如零假设为假),标准检验统计量(如t和z)将受到样本量的强烈影响。大多数研究人员不会将此类统计信息视为估算内在兴趣的人口参数。
  • 描述性统计信息:相反,描述性统计信息确实会估计通常具有内在价值的总体参数。例如,样本均值和标准差提供了等效总体参数的估计值。即使描述性统计信息(例如最小值和最大值)也提供有关等效或相似总体参数的信息,尽管在这种情况下当然需要更多的注意。此外,许多描述性统计数据可能有偏差,或者比理想的估计量少。但是,它们仍然在估算目标人口参数方面具有一定的实用性。

因此,从这个角度来看,需要理解的重要事项是:

  • 统计:样本数据的功能
  • 参数:人口函数(数据生成过程)
  • 估计器:样本数据的功能,用于提供参数的估计
  • 推论:得出有关参数结论的过程

因此,您可以根据研究人员使用统计信息的意图来定义描述性和推论之间的区别,也可以根据统计信息的通常使用方式来定义统计信息。


称t或F 分数(而不是t 检验)的推理统计如何合理?
13年

@jona t分数是t检验中使用的“统计”,因此当将t分数用作这种推理过程的一部分时,可以将t分数描述为推理统计。我想我是从一个假设开始的,即统计是数据的函数。但是,也许您在暗示我们经常将推理统计视为用于推理的更广泛的技术?
Jeromy Anglim 2013年

让我用不同的措词来表达-t统计不是对样本的描述,而是推论语句(例如p值)吗?
13年

是的,数据的功能等同于样本的描述。我猜想我是在推论过程中使用过这样的统计信息(例如,研究人员将t统计信息与t分布相关联以获取p值,然后将p与alpha关联以进行推断)。我经常看到教科书使用这些示例。但是我想p值和二元推断本身可以看作是统计量(即样本数据的函数)。二进制推断本身可以被视为与推断最一致。那是你要得到的吗?
Jeromy Anglim

1
因此,例如,您使用数据获取与分布相关的t,从而得到p,这反过来又产生了有关总体参数的二进制推断。因此,从频率论者的角度来看,t,p和二进制推断都是随机变量。所有人都参与了推理过程。我不确定将全部或仅某些统计数据标记为推论的利弊。
Jeromy Anglim 2013年

8

一种推论形式是基于实验方法的随机分配,而不是基于总体的抽样(甚至假设)。奥斯卡·肯普霍恩Oscar Kempthorne)是支持者。

ABtt10/252=0.04

预测是您不一定要制定有关人口的命题的另一个领域。(我不知道每个人都想将预测称为“推理”,但是有Geis​​ser(1993),《预测推理:简介》)。预测通常是根据拟合的人口模型得出的,但并非总是如此。例如@Matt的分类示例,模型平均(贝叶斯或基于Akaike权重)或预测算法(例如指数平滑)。

注意:我认为“推论性统计与描述性统计”更多地是指学科统计学,而不是根据样本计算得出的数量。推论和描述性统计之间没有本质区别。正如@Jeremy指出的,这与您要使用的用途有关。


2

我不确定分类是否一定会说明从中提取数据点的总体。您可能知道,分类使用由一些“特征”向量组成的训练数据来预测属于其他未标记特征向量的类别标签,其中每个“特征”向量都标有特定类别。例如,我们可能使用患者的生命体征和医生的诊断来预测其他患者的健康或疾病。

一些分类器称为“生成分类器”,它们试图显式地对产生每个类的总体或数据生成过程进行建模。例如,朴素贝叶斯算法会计算P=C|特征 每堂课 C,假设所有功能都是独立的。这些模型可以合理地视为关于人口的陈述。

但是,其他分类器则在不对类本身建模的情况下寻找类之间的差异。这些称为判别式分类器。一个经典的例子是最近邻居分类器,该分类器将一个未标记的示例分配给它最近邻居的类(其中以某种明智的方式定义了close来解决问题)。这似乎并不包含很多(如果有的话)有关从中提取数据点的总体的信息。

如果您对描述性统计和推理性统计之间的差异感兴趣,那么考虑分析的目的可能会更有成果。描述性统计数据(例如均值)可能会告诉您典型湖中有多少鳟鱼-它们描述了某些东西。推论统计,例如Ť-test,可能会告诉您在这些湖泊中鳟鱼的数量通常是否比鲈鱼多-它使您可以对描述性统计数据进行声明。


0

在给定数据的一行中,描述性统计信息试图以最少的信息损失来总结数据的内容(取决于您使用的度量方式)。您将看到数据的地理位置(例如,查看类的性能图并说出谁在顶部,底部等)。

在给定数据的一行中,您尝试估计和推断数据所来自的假设总体的属性。(例如,通过从班级中获得良好的样本来理解7年级学生的情况,假设基本人口足够大,以至于您无法将他们整体考虑在内)


3
我认为这不是描述性统计信息的定义或特征,它们旨在最大程度地减少信息丢失。具有描述性的统计数据完全有可能遗漏了非常重要的细节,而这通常是一个问题。
Nick Cox

0

简而言之

描述统计是对数据的分析,这些数据以有意义的方式描述,显示或汇总数据;它只是描述我们有关整个人群的数据/谈话的一种方式。其中一些是集中趋势的度量和分散的度量

推论统计是一种技术,它使我们能够使用样本对抽取样本的总体进行概括。


0

描述性统计是对数据的分析,这些数据以有意义的方式描述,显示或汇总数据;它只是描述我们有关整个人群的数据/谈话的一种方式。其中一些是集中趋势的度量和分散的度量

推论统计是一种技术,它使我们能够使用样本对样本来源的总体进行概括。


欢迎使用交叉验证!请花一点时间查看我们的行程。看来您即将完成一个很好的答案,但是发生了一些事情。随时编辑您的答案以完成您的想法。您可能还想通过添加引文/参考文献来改进您的答案,这些引文/参考文献可以与您在此处提出的内容进行协作。您还需要回答以下问题:“是否有一些推论统计数据的例子没有对总体提出建议?”
Tavrock
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.