Frequentist和Bayesian在“可能性”的定义上有什么区别吗?


21

有些资料说似然函数不是条件概率,有些则说是。这让我很困惑。

根据我所见的大多数资料,给定样本,具有参数的分布的可能性应该是概率质量函数的乘积:θnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

例如,在Logistic回归中,我们使用优化算法来最大化似然函数(最大似然估计),以获得最优参数,从而获得最终的LR模型。给定我们假设彼此独立的训练样本,我们希望最大化概率乘积(或联合概率质量函数)。这对我来说似乎很明显。n

根据“ 可能性,条件概率和失败率之间的关系 ”,“可能性不是概率,也不是条件概率”。它还提到:“仅在贝叶斯对似然性的理解中,即,如果假设是随机变量,那么似然性就是条件概率。”θ

我读到了关于在常客和贝叶斯之间对待学习问题的不同观点。

根据消息来源,对于贝叶斯推断,我们具有先验,似然性,并且我们希望使用贝叶斯定理获得后验:P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

我不熟悉贝叶斯推理。为什么P(X|θ),其是在它的参数条件所观察到的数据的分发,也被称为可能性有多大?在Wikipedia中,它说有时写成L(θ|X)=p(X|θ)这是什么意思?

Frequentist和Bayesian对可能性的定义之间有区别吗?

谢谢。


编辑:

解释贝叶斯定理的方法有多种-贝叶斯定理和惯常论的解释(请参阅:贝叶斯定理-维基百科)。


2
似然性的两个关键属性是:(a)它是特定的的函数,而不是相反的,并且(b)仅在正比例常数下才可知道。这不是概率(有条件的或非条件的),因为它不需要将所有求和或积分为X 1 θθX1θ
Henry

Answers:


24

定义没有区别 -在两种情况下,似然函数都是与采样密度成比例的参数的任何函数。严格来说,我们不要求可能性等于采样密度。它只需要成比例,就可以删除不依赖参数的乘法部分。

尽管采样密度被解释为数据的函数,但取决于参数的指定值,而似然函数被解释为固定数据矢量的参数的函数。因此,在IID数据的标准情况下,您可以:

Lx(θ)i=1np(xi|θ).

在贝叶斯统计中,我们通常以最简单的形式表示贝叶斯定理:

π(θ|x)π(θ)Lx(θ).

贝叶斯定理的这种表达强调,它的两个多重元素都是参数的函数,这是后验密度的关注对象。(此比例结果完全定义了该规则,因为后验是密度,因此有一个唯一的乘常数使它整合为一个。)正如您在更新中指出的那样,贝叶斯和常人主义哲学具有不同的解释结构。在常例范式中,该参数通常被视为“固定常数”,因此没有归因于概率测度。因此,常客拒绝使用该参数的先验分布或后验分布(有关这些哲学和解释差异的更多讨论,请参见例如O'Neill 2009)。


14

所述似然函数是从独立定义或前一个用于推理统计范例,作为函数,(或则参数的,功能取决于或由索引观察(S)为这推断。并且也隐含地取决于选择用来表示数据中变异性或随机性的概率模型系列。对于给定值对,此函数的值与模型密度的值完全相同- 大号θ ; X 大号θ | X θ - - X θ X X θL(θ;x)L(θ|x)θx(θ,x)x当使用参数索引时。θ通常将其粗略地翻译为“数据的概率”。

要引用比该论坛上的早期答案更多的权威和历史资料,

“我们可能会针对可能提出的解释这些观察的任何假设讨论可以观察到的数量的发生概率。假设...通过观察得出的结论…………说可观察量的可能性……毫无意义。” RA Fisher,关于从一个小样本得出的相关系数的``可能误差''。1921年1月的《Metron》,第25页

“如果我们将可能性定义为与从具有特定r值的总体中观察到r值的样本的概率成正比的数量,则可以从样本中找到r的任何特定值的可能性。 ,应获取。” RA Fisher,关于从一个小样本得出的相关系数的``可能误差''美唐 1,1921年,第24页

其中提到了Jeffreys(和我)发现多余的比例关系:

“ ..likelihood(可能性),是RA Fisher教授引入的一个方便术语,尽管有时使用它乘以一个常数因子。这是在给出原始信息和所讨论假设的情况下观察的可能性。” 杰弗里斯(H. Jeffreys),《概率论》,1939年,第28页

引用约翰·奥尔德里奇(John Aldrich)出色的历史文章(1997年统计科学)的一句话:

“ Fisher(1921,p。24)重新草拟了他在1912年写的关于逆概率的文章,区分了可以对概率密度和似然进行的数学运算:似然不是“微分元素”,无法整合。” J. Aldrich,RA Fisher,《最大似然的产生》(1912 – 1922年)1997年,第9页

当采用贝叶斯方法时,似然函数的形状或性质不会改变。它一直是由索引的处的密度。附加功能是,由于还具有概率模型,因此先验分布,由索引的处的密度也可以解释为条件密度,条件是实现:在贝叶斯模型中,一个实现是从先验产生的,密度为,然后是,xθθxθθθπ()Xx由密度为的分布产生,由索引。换句话说,对于适当的支配度量,该对具有联合密度 ,由此可得出的后密度,也就是的条件密度,以实现为 也表示为 自Jeffreys(1939)以来发现的。L(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

注意:我发现在Wikipedia页面的介绍中频次函数和贝叶斯似然函数之间的似然函数存在混淆和不必要的区别,或者完全是错误的,因为当前的大多数贝叶斯统计学家都不使用似然函数来代替后验概率。类似地,在Wikipedia页面上指出的关于贝叶斯定理的“差异” 听起来比其他任何事物都更加令人困惑,因为该定理是关于条件变化的概率陈述,与范式或概率陈述的含义无关。(在我看来,它比定理更像是一个定义!)


1

作为一个小的附录:

名称“ Likelihood”完全具有误导性,因为存在许多不同的可能含义。不仅是“普通语言”之一,而且还在统计中。我可以想到至少三个不同但甚至相关的表达式,它们全都称为“可能性”。即使是教科书

就是说,当采用似然的乘法定义时,就其(例如公理)定义而言,其中没有任何东西可以将其转化为任何可能性。它是一个实数值。您可以做很多事情来将其计算或与概率相关联(采用比率,计算先验和后验等),但是就概率而言,它本身没有任何意义。

西安提供的更多翔实而全面的答案已或多或少地掩盖了答案。但是根据要求,有一些关于可能性的教科书定义:

  • 函数L(x;θ)
  • 在某些观察到的数据(最大值L,最小值L,对数L等)的条件下找到参数的“最佳”值的方法θ
  • 不同先验的似然值之比(例如,在分类任务中)……而且人们可以尝试归因于上述元素的(滥用)不同含义。

1
如果您可以添加示例/引用,这将是一个更好的答案,因为我可以想到至少三个不同但相互关联的表达式,都被称为“可能性”。即使在教科书中
kjetil b halvorsen
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.