在实践中,“仅根据比例的乘法常数来定义可能性”是什么意思?


19

我正在阅读一篇论文,作者从最大似然估计的讨论到贝叶斯定理,似乎是对初学者的介绍。

作为一个可能性示例,它们从二项分布开始:

p(x|n,θ)=(nx)θx(1θ)nx

然后登录双方

(θ|x,n)=xln(θ)+(nx)ln(1θ)

具有以下基本原理:

“因为可能性仅被定义为比例的乘性常数(或对数似然的加性常数),所以我们可以通过降低二项式系数并写出对数似然来代替似然来重新定标。”

数学上是有道理的,但我不明白“似然仅定义为比例乘性常数”的含义,以及这如何使二项式系数下降并从变为\ ell(\ theta | x,n)p(x|n,θ)(θ|x,n)

在其他问题(此处此处)中也出现了类似的术语,但实际上仍不清楚可能的定义是什么,或者使信息达到可乘的常数。有可能用外行的术语解释吗?

Answers:


18

关键是,有时(针对相同数据)不同的模型可能会导致似然函数相差一个乘法常数,但信息内容必须明显相同。一个例子:

我们对独立的伯努利实验进行建模,从而数据,每个数据都具有(概率)参数的伯努利分布。这导致似然函数 或我们可以通过二项分布变量来汇总数据,它具有二项式分布,从而导致似然函数 ,该函数根据未知参数与前一个似然函数成比例。这两个似然函数显然包含相同的信息,并应得出相同的推论!nX1,,Xnp

i=1npxi(1p)1xi
Y=X1+X2++Xn
(ny)py(1p)nÿ
p

实际上,根据定义,它们被视为相同的似然函数。

另一个观点:观察到在贝叶斯定理中使用似然函数时(如贝叶斯分析所需要的那样),这样的乘法常数会被抵消!因此,它们显然与贝叶斯推断无关。同样,如最佳假设检验(Neyman-Pearson引理)中所使用的,在计算似然比时,它将取消。并且,它对最大似然估计器的值没有影响。因此,我们可以看到,在很多常识性推断中,它无法发挥作用。

我们可以从另一个角度争论。上面的伯努利概率函数(以下我们使用术语“密度”)实际上是相对于计数度量的密度,即对每个非负整数质量为1的非负整数的度量。但是我们可以相对于其他主导指标定义密度。在此示例中,这似乎是(并且是)人为的,但是在较大的空间(功能空间)中,这实际上是基本的!为了便于说明,让我们使用特定的几何分布,写为,其中,,和以此类推。然后关于的伯努利分布的密度λλ0=1个/2λ1个=1个/4λ2=1个/8λ˚F λX = p X1 - p 1 - XX 由 意味着 通过这种新的,占优势的度量,似然函数变为(从上面表示) 注意额外因子。因此,当更改似然函数定义中使用的支配度量时,会产生一个新的乘法常数,该常数不依赖于未知参数

FλX=pX1个-p1个-X2X+1个
PX=X=FλXλX
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+np,显然是无关紧要的。这是查看乘法常数必须不相关的另一种方式。可以使用Radon-Nikodym派生词来概括此参数(如上面的参数是一个示例)。


“信息内容必须明确相同”只有在您相信似然原理的情况下,这才是正确的!
jsk 2014年

是的,也许,但是我确实展示了它如何遵循贝叶斯原理。
kjetil b halvorsen 2014年

@kjetilbhalvorsen谢谢您的深思熟虑!我仍然感到困惑的一件事是,为什么伯努利分布的可能性不包括二项式系数。您的答案清楚说明了为什么无所谓,但我不明白为什么首先将它排除在可能性之外。
jvans

@jvans:这是因为二项式系数不取决于未知参数,所以不能影响似然函数的形状
kjetil b halvorsen

12

它基本上意味着只有PDF的相对价值才重要。例如,标准正态(高斯)PDF为:,你的书是说,他们可以用g ^X=ë-X2/2,而不是,因为他们不关心规模,即c ^=1f(x)=12πex2/2g(x)=ex2/2c=12π

这是因为它们最大化似然函数,并X 将具有相同的最大值。因此,最大的ë - X 2 / 2将是相同的作为˚F X 。因此,他们不必担心规模。cg(x)g(x)ex2/2f(X


6

我无法解释的报价的含义,但对于最大似然估计,它不会不管我们选择以找到最大似然函数的 (视为一个函数θ或最大的 一个大号X ; θ ,其中一个是一些恒定这是因为我们没有在的最大值感兴趣。 大号X ; θ 而是值θ ML 其中这个最大值出现,并且两个大号XL(x;θ)θaL(x;θ)aL(x;θ)θML一个大号X ; θ 达到在同一它们的最大值 θ ML。因此,可以忽略乘法常数。类似地,我们可以选择考虑 似然函数 L x ; θ )的任何单调函数 g (例如对数,确定 g L x ; θ 的最大值,并推断出 θ 毫升L(x;θ)aL(x;θ)θMLg()L(x;θ)g(L(x;θ))θML由此。对于对数,乘法常数 成为加法常数ln a ),并且在找到最大值的位置的过程中也可以忽略不计: ln a + ln L x ; θ 在与ln L x ; θ aln(a)ln(a)+ln(L(x;θ)ln(L(x;θ)

转到最大后验概率(MAP)估计, 被认为是一个实现的随机变量的Θ先验密度函数˚F Θθ 时,数据X被认为是一个实现了随机变量X,和似然功能被认为是的值 有条件密度 ˚F X | θX | θ = θ X空调上θ = θθΘfΘ(θ)xXfXΘ(xΘ=θ)XΘ=θ; 所述条件密度函数在评估。的后验密度Θ˚F Θ | Xθ | X= ˚F X | ΘX | Θ = θ ˚F Θθ xΘ ,其中我们将分子识别为数据和估计参数的联合密度fXΘxθ。点θMAP其中 ˚FΘ|Xθ|X达到其最大值的MAP估计θ,并且,使用相同的参数在该段中,我们看到,我们可以忽略[˚FXX]-1在右侧

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1作为乘法常数正如我们可以忽略在乘法常数两者 ˚F X | ΘX | Θ = θ 和在 ˚F Θθ 。类似地,当使用对数似然时,我们可以忽略加性常数。(1) fXΘ(xΘ=θ)fΘ(θ)

这种思路可以通过贝叶斯也可以做:如果你把一个大号到贝叶斯定理没有事,将取消,因此后是一样的。LaLa
kjetil b halvorsen

5

用外行的话来说,您经常会寻找最大可能性,并且k f x 共享相同的临界点。f(x)kf(x)


3
f(x)f(x)+2

就像阿莱科斯·帕帕多普洛斯(Alecos Papadopoulos)在回答中写道的那样,“可能性首先是联合概率密度函数”。因为随机样本的独立同分布的假设,即关节功能是一个产品的简单密度函数,所以乘法因子确实出现,加数没有。
塞尔吉奥

1
当且仅当数据是独立的时,联合功能才是这种产品。但是MLE扩展到因变量,因此乘积参数似乎令人信服。
whuber

1

argmax

在某些特殊情况下,您可能必须最大程度地限制似然性,然后在计算其值时应“记住”任何常数。

另外,您可能正在使用过程中的似然值对非嵌套模型执行模型选择测试-并且由于模型是非嵌套的,因此两个似然将具有不同的常数。

除了这些,这句话

“因为可能性最多只能定义成比例的乘法常数(或对数似然的加法常数)”

错误的,因为似然性首先联合概率密度函数,而不仅仅是要最大化的“任何”目标函数。


3
θθ

3
L(θx)=f(xθ).
11

1
@heropup我已经写过,它不一定在参数空间上集成为统一的,因此,当它被视为“参数函数”时,不能立即视为“密度函数”。
Alecos Papadopoulos

1
是的我知道。我的观点是,短语“似然函数是一个密度函数,被视为参数的函数”本身令人困惑。更准确地说是:“似然函数是固定样本参数的函数,并且等于(或成比例)样本空间上的联合密度。”
heropup 2014年

1
L(xθ)f(θ)Lf(θ)
Dilip Sarwate 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.