Answers:
关键是,有时(针对相同数据)不同的模型可能会导致似然函数相差一个乘法常数,但信息内容必须明显相同。一个例子:
我们对独立的伯努利实验进行建模,从而数据,每个数据都具有(概率)参数的伯努利分布。这导致似然函数
或我们可以通过二项分布变量来汇总数据,它具有二项式分布,从而导致似然函数
,该函数根据未知参数与前一个似然函数成比例。这两个似然函数显然包含相同的信息,并应得出相同的推论!
实际上,根据定义,它们被视为相同的似然函数。
另一个观点:观察到在贝叶斯定理中使用似然函数时(如贝叶斯分析所需要的那样),这样的乘法常数会被抵消!因此,它们显然与贝叶斯推断无关。同样,如最佳假设检验(Neyman-Pearson引理)中所使用的,在计算似然比时,它将取消。并且,它对最大似然估计器的值没有影响。因此,我们可以看到,在很多常识性推断中,它无法发挥作用。
我们可以从另一个角度争论。上面的伯努利概率函数(以下我们使用术语“密度”)实际上是相对于计数度量的密度,即对每个非负整数质量为1的非负整数的度量。但是我们可以相对于其他主导指标定义密度。在此示例中,这似乎是(并且是)人为的,但是在较大的空间(功能空间)中,这实际上是基本的!为了便于说明,让我们使用特定的几何分布,写为,其中,,和以此类推。然后关于的伯努利分布的密度˚F λ(X )= p X(1 - p )1 - X(X )由
意味着
通过这种新的,占优势的度量,似然函数变为(从上面表示)
注意额外因子。因此,当更改似然函数定义中使用的支配度量时,会产生一个新的乘法常数,该常数不依赖于未知参数
我无法解释的报价的含义,但对于最大似然估计,它不会不管我们选择以找到最大似然函数的 (视为一个函数θ或最大的 一个大号(X ; θ ) ,其中一个是一些恒定这是因为我们没有在的最大值感兴趣。 大号(X ; θ )而是值θ ML 其中这个最大值出现,并且两个大号(X 和一个大号(X ; θ )达到在同一它们的最大值 θ ML。因此,可以忽略乘法常数。类似地,我们可以选择考虑 似然函数 L (x ; θ )的任何单调函数 g (⋅ )(例如对数),确定 g (L (x ; θ ))的最大值,并推断出 θ 毫升由此。对于对数,乘法常数 成为加法常数ln (a ),并且在找到最大值的位置的过程中也可以忽略不计: ln (a )+ ln (L (x ; θ ) 在与ln (L (x ; θ )。
转到最大后验概率(MAP)估计, 被认为是一个实现的随机变量的Θ与 先验密度函数˚F Θ(θ )时,数据X被认为是一个实现了随机变量X,和似然功能被认为是的值 有条件密度 ˚F X | θ(X | θ = θ ) 的X空调上θ = θ; 所述条件密度函数在评估。的后验密度Θ是 ˚F Θ | X(θ | X)= ˚F X | Θ(X | Θ = θ )˚F Θ(θ ) ,其中我们将分子识别为数据和估计参数的联合密度fX,Θ(x,θ)。点θMAP其中 ˚FΘ|X(θ|X)达到其最大值的MAP估计θ,并且,使用相同的参数在该段中,我们看到,我们可以忽略[˚FX(X)]-1在右侧
在某些特殊情况下,您可能必须最大程度地限制似然性,然后在计算其值时应“记住”任何常数。
另外,您可能正在使用过程中的似然值对非嵌套模型执行模型选择测试-并且由于模型是非嵌套的,因此两个似然将具有不同的常数。
除了这些,这句话
“因为可能性最多只能定义成比例的乘法常数(或对数似然的加法常数)”
是错误的,因为似然性首先是联合概率密度函数,而不仅仅是要最大化的“任何”目标函数。