给定单个样本的概率为0,为什么MLE有意义?


13

我在回顾一些旧的统计数据时有一种奇怪的想法,由于某种原因,我似乎无法想到答案。

连续的PDF告诉我们在任何给定范围内的观测值的密度。即,如果XN(μ,σ2),例如,则概率一个实现落在之间ab是简单地abϕ(x)dx,其中ϕ是标准正态的密度。

当我们考虑对参数(例如μ进行MLE估计时,我们写出了N(随机变量X1..XN的联合密度X N并将对数似然比wrt区分为μ,设置为0并求解μ。通常给出的解释是“给定数据,该参数使该密度函数最合理”。

让我烦恼的部分是:我们的密度为N rv,我们的样本表示,获得特定实现的概率恰好为0。在给定数据的情况下,为什么最大化关节密度甚至有意义(因为再次观察到我们实际样本的概率恰好是0)?

我能想到的唯一合理化方法是,我们希望使PDF 我们观察到的样本周围尽可能达到峰值,以使该区域中的积分(从而观察该区域中的东西的概率)最高。


1
基于同样的原因,我们使用概率密度stats.stackexchange.com/q/4220/35989
蒂姆

我理解(我认为)为什么使用密度有意义。我不明白的是为什么在观察出现概率为0的样本的条件下最大化密度是有意义的。
亚历克斯

2
因为概率密度告诉我们什么值比其他值更有可能出现。
蒂姆

如果您有时间完全回答问题,我认为这对我和下一个人会有所帮助。
亚历克斯

因为幸运的是,可能性不是概率!
AdamO

Answers:


18

任何样品,的概率Pθ(X=x),是等于零,但一个样本是通过从一个概率分布绘图实现。因此,概率是评估样本及其发生可能性的错误工具。Fisher(1912)定义的统计似然性是基于当δ变为零时在长度δ的间隔内观察样本x的概率的有限论点(引自Aldrich,1997)δδ

Aldrich,J.(1997)统计科学12,162-176

当用δ重新归一化此概率时。似然函数项仅在Fisher(1921)中引入,而最大似然在Fisher(1922)中引入。

尽管卡尔·弗里德里希·高斯(Carl FriedrichGauß)在“最可能值”的名称下使用了先验概率为倒数的原则(贝叶​​斯推断),但他已在1809年得出了正态分布方差参数的最大似然估计量。Hald(1999)提到了Fisher于1912年发表的论文之前出现的其他几项最大似然估计值,它们确定了一般原理。

最大似然法的另一个理由是,由于样本对数似然重新归一化(x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ


感谢您的回答。您能否扩大一下KL的论点?我没有立即看到这种情况。
亚历克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.