用外行的话来说,模型和分布之间有什么区别?


28

维基百科上定义的答案(定义)对于那些不熟悉高等数学/统计学的人来说可能有点神秘。

用数学术语来说,统计模型通常被认为是一对(),其中是可能的观测值的集合,即样本空间,而是概率分布的集合在。小号P小号S,PSPS

在概率和统计中,概率分布将概率分配给随机实验,调查或统计推断程序的可能结果的每个可测量子集。发现样本空间非数字的示例,其中的分布为分类分布。

我是一名高中生,在业余爱好这一领域非常感兴趣,目前正在努力解决a statistical model和a 之间的差异probability distribution

我目前的并且非常基本的理解是:

  • 统计模型是对测得分布进行近似的数学尝试

  • 概率分布是对实验的测量描述,将概率分配给随机事件的每个可能结果

文献中倾向于互换使用“分布”和“模型”一词,或者至少在非常相似的情况下(例如,二项式分布与二项式模型),这种混淆进一步加剧了混乱。

有人可以验证/纠正我的定义,也许可以为这些概念提供更正式的方法(尽管仍然用简单的英语表达)?


1
底线:统计模型和概率分布之间绝对没有区别。每个统计模型都描述概率分布,反之亦然。不要让他们将您的长篇文章弄糊涂。
Cagdas Ozgenc

3
@Cagdas根据定义的问题引,有一个区别:一个统计模型的概率分布的特定组织的集合。如果只有一种概率分布是明显的,那么我们将不再进行统计,因为已经实现了统计分析的目的:我们知道分布!
ub

2
@cagdas维基百科使公司拥有最好的文本。我完全同意。

4
@CagdasOzgenc,为什么不提供一些证据来证实您的明确主张。权威证明很少(如果曾经)是可接受的。没有证据,很难(如果不是不可能)进行富有成效的讨论;未经证实的主张很少比噪音要多。
理查德·哈迪

2
@RichardHardy这个问题问“外行术语”,然后看他得到的答案。对不起,但我讨厌看到学生受苦只是因为有人决定炫耀。答案很简单,只要2 + 2 = 4,我真的不认为它需要20页的权威参考。
Cagdas Ozgenc

Answers:


25

概率分布是描述随机变量的数学函数。更准确地说,它是一个将概率分配给数字的函数,其输出必须与概率公理一致。

统计模型是使用概率分布以数学术语对某些现象的抽象,理想化描述。引用瓦瑟曼(2013):

统计模型 是一组分布(或密度或回归函数)的。甲参数模型是一组 ,可以由有限数量的参数进行参数化。[...] ˚FFF

通常,参数模型采用以下形式

F={f(x;θ):θΘ}

其中是未知参数(或参数向量),可以在参数空间获取值。如果是一个向量,但我们只对一个分量感兴趣,则将其余参数称为烦人参数。阿非参数模型是一组不能由有限数量的参数进行参数化。Θ θ θ ˚Fθ ΘθθF

在许多情况下,我们使用分布作为模型(您可以查看此示例)。您可以使用二项分布作为一系列抛硬币中的正面计数模型。在这种情况下,我们假定此分布以简化的方式描述了实际结果。这并不意味着这是描述这种现象的唯一方法,也不意味着二项分布只能用于此目的。模型可以使用一个或多个分布,而贝叶斯模型也可以指定先验分布。

McCullaugh(2002)对此进行了更正式的讨论:

根据目前公认的理论[Cox和Hinkley(1974),第1章;Lehmann(1983),第1章;Barndorff-Nielsen and Cox(1994),第1.1节;Bernardo和Smith(1994),第4章]统计模型是样本空间上的一组概率分布。参数化统计模型是参数 与函数一起设置的,它分配给每个参数点 a上的 概率分布。这里是该组的所有 上的概率分布 Θ P Θ →交通P小号θ ∈ Θ P θ 小号SΘP:ΘP(S)θΘPθS小号 P Θ →交通P小号P Θ P小号P(S)S。在以下大部分内容中,区分模型作为函数至关重要和关联的分布。P:ΘP(S)PΘP(S)

因此,统计模型使用概率分布来描述其数据。参数模型还根据有限的参数集进行描述。

这并不意味着所有统计方法都需要概率分布。例如,线性回归通常是用正态性假设来描述的,但实际上,它对偏离正态性非常稳健,我们需要对置信区间和假设检验的误差正态性进行假设。因此,要使回归起作用,我们不需要这样的假设,但是要拥有完全指定的统计模型,我们需要用随机变量来描述它,因此我们需要概率分布。我之所以这么写是因为您经常听到人们说他们对数据使用回归模型-在大多数情况下,他们宁愿意味着他们使用某些参数以目标值与预测变量之间的线性关系描述数据,而不是坚持条件常态。


McCullagh,P.(2002年)。什么是统计模型? 统计年鉴, 1225-1267。

Wasserman,L.(2013年)。所有统计信息:统计推断的简要课程。施普林格。


4
@JCLeitão这就是为什么我添加通知的原因;)经典的OLS仅与调整行有关。正态性假设仅与噪声有关,而核心思想是将E(y)建模为X的线性函数。置信区间和测试需要正态性,但是回归与拟合直线有关,误差的重要性较小。(宽松地讲。)
蒂姆

谢谢您的回答。您能否提供2个简洁的定义进行总结?(也是我不明白最后一行In much of the following, it is important to distinguish between the model as a function and the associated set of distributions)您是在评论共享相同术语的两种含义之间固有的歧义,model还是我遗漏了什么?
AlanSTACK,2016年

@Alan在前两段中提供了两个简洁的定义,而引号和参考文献中的定义更为严格-您能否澄清不清楚的地方?关于引号的最后一行:它基本上说模型是根据概率分布和参数定义的,并且最好记住它具有这两个方面,有时区分它们是很好的。我建议对引用的论文进行严格的讨论(可在链接下免费获得)。

8

将视为一组票证。您可以在票证上写东西。通常,票证以“代表”或“模型”的某些现实世界的人或物体的名称开头。每张票上都有很多空白,可以用来写其他东西。S

您可以根据需要制作每个票证的副本。此现实种群或过程的概率模型 包括为每张票证制作一个或多个副本,将它们混合并放入盒子中。如果您(分析师)可以确定从此框随机抽取一张票的过程模拟了您所研究内容的所有重要行为,那么您可以通过思考此框来了解很多世界。由于某些票证中的票数可能会比其他票证中的票数多,因此它们被抽签的机会可能会有所不同。 概率论研究了这些机会。P

数字(以一致的方式)写在票证上时,它们会引起(概率)分布。甲概率分布仅仅描述门票在一个盒子里的人数位于任何给定的时间间隔内的比例。

因为我们通常不完全了解世界的行为,所以我们必须想象不同的盒子,其中的票证以不同的相对频率出现。这些框的集合是。我们认为的一个框的行为已充分描述了这个世界。您的目标是根据您从票房中取出的票上的物品做出合理的猜测,以判断该票箱是哪个。PPP


举一个例子(实用而现实,不是教科书玩具),假设您正在研究化学反应随温度变化的速率。假设化学理论预测在至度的温度范围内,速率与温度成正比。0 100y0100

您计划在和度下研究此反应,并在每个温度下进行多次观察。因此,您组成了非常大量的盒子。您将用票填满每个箱子。每一个都有一个速率常数。任何给定框中的所有票证上都印有相同的费率常数。不同的盒子使用不同的速率常数。 1000100

使用写在任何票证上的速率常数,您还可以将速率记为并将速率记为度:分别称为和。但这还不足以形成一个好的模型。化学家还知道,没有一种物质是纯净的,没有精确地测量其数量,并且会发生其他形式的观测变异。为了模拟这些“错误”,您制作了非常多的票证副本。在每个副本上,您更改和。在大多数情况下,您只需更改一下即可。在极少数情况下,您可能会对其进行很多更改。您记下了计划在每个温度下观察到的尽可能多的更改值。这些观察结果代表了可能100 ÿ 0 ý 100 ÿ 0 ÿ 1000100y0y100y0y100实验的可观察结果。成箱往每个这样的集合,这些门票的:它是一个概率模型为你做什么可能会观察到对于给定的速率常数。

什么你观察的是通过从箱画票建模,只读取写有意见。 您不会看到或的基础(真)值。您不会读取(true)速率常数。这些不是您的实验提供的。y 100y0y100

每个统计模型都必须对这些(假设)框中的票证做出一些假设。例如,我们希望当您修改和的值时,您不必一直增加或减少任何一个(作为一个整体,在方框内):这样做将是系统性偏见的一种形式y 100y0y100

因为写在每张票证上的观察值都是数字,所以它们会引起概率分布。有关这些框的假设通常用这些分布的属性来表述,例如它们是否必须平均为零,对称,具有“钟形曲线”形状,不相关或其他。


真的就是全部。 从原始的十二音阶产生所有西方古典音乐的方式来看,装有票的盒子的集合是一个简单的概念,可以以极其丰富和复杂的方式使用。它几乎可以建模,包括硬币翻转,视频库,网站交互作用数据库,量子力学合奏以及任何其他可以观察和记录的内容。


3

将分布分配给每个可能的事件的概率的定义适用于离散分布,但对于连续分布则变得比较棘手,例如,实际行上的任何数字都可能是结果。在谈论分布时,我们经常将它们视为具有固定参数,例如具有两个参数的二项式分布:首先,观测值的数量,其次,单个观测值的概率是一个事件。π

典型的参数统计模型描述分布的参数如何取决于某些因素,例如因素(具有离散值的变量)和协变量(连续变量)。例如,如果在正态分布中假设均值可以用某个固定数字(“截距”)和某个数字(“回归系数”)乘以协变量的值来描述,则可以得到线性回归模型,其中正态分布误差项。对于一个二项式分布,一种通常使用的模型(“逻辑回归”)是假设的概率的分对数一个事件(的)可通过回归方程,例如被描述π /1 - π 截距+ β 1个协变量1 + ...ππ/(1π)intercept+β1covariate1+。类似地,对于泊松分布,通用模型是假设速率参数的对数为该模型(“泊松回归”)。


2
是的,但是...模型不仅与参数有关,而且与问题的结构有关(例如,类似于假定数据生成过程的概率模型);还有非参数模型。

2

概率分布给出了有关随机量如何波动的所有信息。实际上,我们通常没有感兴趣数量的全部概率分布。我们可能了解或假设某事,而不知道或假设我们了解某事。例如,我们可能假设一些量是正态分布的,但对均值和方差一无所知。然后,我们收集了一组候选人供您选择;在我们的示例中,所有可能的正态分布。该分布集合形成统计模型。我们通过收集数据然后限制候选人的类别来使用它,以便所有剩余的候选人在某种适当的意义上与数据保持一致。


2

模型由PDF指定,但不是PDF。

概率分布(PDF)是一种将概率分配给数字的函数,其输出必须与概率公理一致,如Tim所解释的

模型完全由概率分布定义,但不仅限于此。在抛硬币的例子中,我们的模型可以是“硬币是公平的” +“每次掷硬币是独立的”。该模型由PDF所指定,该PDF是p = 0.5的二项式。

P(x1,x2,x3,...)

模型与PDF之间的区别是模型可以解释为统计假设。例如,在抛硬币时,我们可以考虑以下模型:硬币是公平的(p = 0.5),并且每一掷都是独立的(二项式),并说这是我们的假设,我们想与竞争假设进行检验。

pp


你能详细说明你的最后一句话吗?在我看来,这似乎是非参数统计的重要部分。
伊恩

我一直认为非参数模型对x_i的PDF的限制较少,但是对于使用的统计信息仍然需要PDF。例如,肯德尔等级相关性假设计算p值具有正则性。但是可能有一个反例。我会感兴趣的。
豪尔赫·雷涛

我只是不明白当您说“谈论竞争性PDF毫无意义”时的意思。这就是我们实际上正在做的事情,甚至在参数统计中也是如此:我们有一堆可能认为对问题有效的PDF,我们获取了一些数据,然后从数据中得出结论,我们的PDF的某些子集更好。然后,我们量化“更好”的含义。(此外,在基本情况下,您实际上不应该对所有内容使用“ PDF”。从分发的角度来看,这最终可以解决,但这是非常复杂的机制……)
Ian,

A model is specified by a PDF我不同意。一个模型也可以由多个PDF指定。而且可能没有PDF指定模型:考虑一下SVM或回归树之类的东西。
里卡多·克鲁兹

2

您问一个非常重要的问题,艾伦,并且在上面已经收到了一些很好的答案。我想提供一个简单的答案,并指出上述答案未解决的区别的另一个方面。为简单起见,我将在这里说的一切都与参数统计模型有关。

y=ax2+bx+cy=mx+bF=kxmbk

因此,我对您的问题的简短回答#1是:统计模型是一个分布族。

我想提出的另一点是关于统计的限定词。犹大珍珠(Judea Pearl)在他的“因果分析的黄金法则”中指出[1,p350],

纯粹的统计方法无法建立因果关系,无论是倾向得分,回归,分层还是任何其他基于分布的设计。

F=kx 即关于概率分布的陈述。

因此,对于您的问题,我的答案2是:模型通常体现因果关系,而这些因果关系无法用纯粹的分布术语来表达。


[1]:珍珠,犹太人。因果关系:模型,推理和推理。第二版。英国剑桥;纽约:剑桥大学出版社,2009年。链接至§11.3.5,包括引用的p。351。


原谅我的无知,但是这个词是什么意思causal?有一些更细致的意义给它或它只是指的概念causality和关系之间的约束causeseffects?顺便说一句,谢谢您的回答。
AlanSTACK

FxF=kx=
David C. Norris
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.