Questions tagged «maximum-likelihood»

一种通过选择优化观察给定样本概率的参数值来估算统计模型参数的方法。


1
线性高斯卡尔曼滤波器的LogLikelihood参数估计
我已经编写了一些代码,可以对n维状态向量进行线性高斯状态空间分析(使用许多不同的Kalman型滤波器[Information Filter等])。筛选器效果很好,我得到了一些不错的输出。但是,通过对数似然估计进行参数估计会使我感到困惑。我不是统计学家,而是物理学家,所以请保持友好。 让我们考虑线性高斯状态空间模型 yt=Ztαt+ϵt,yt=Ztαt+ϵt,y_t = \mathbf{Z}_{t}\alpha_{t} + \epsilon_{t}, αt+1=Ttαt+Rtηt,αt+1=Ttαt+Rtηt,\alpha_{t + 1} = \mathbf{T}_{t}\alpha_{t} + \mathbf{R}_{t}\eta_{t}, 其中是我们的观察向量,我们在时间步处的状态向量。粗体为状态空间模型的变换矩阵,这些变换矩阵是根据所考虑的系统的特性设置的。我们还有ytyty_{t}αtαt\alpha_{t}ttt η 吨〜Ñ 我d (0 ,Q 吨),α 1〜Ñ 我d (一个1,P 1)。ϵt∼NID(0,Ht),ϵt∼NID(0,Ht),\epsilon_{t} \sim NID(0, \mathbf{H}_{t}), ηt∼NID(0,Qt),ηt∼NID(0,Qt),\eta_{t} \sim NID(0, \mathbf{Q}_{t}), α1∼NID(a1,P1).α1∼NID(a1,P1).\alpha_{1} \sim NID(a_{1}, \mathbf{P}_{1}). 其中。现在,我已经通过猜测初始参数和方差矩阵和来推导并实现了该通用状态空间模型的Kalman滤波器的递归,我可以生成图喜欢H 1 Q 1t=1,…,nt=1,…,nt = 1,\ldots, nH1H1\mathbf{H}_{1}Q1Q1\mathbf{Q}_{1} 其中的点是100年1月的尼罗河水位,线是“卡拉姆估计”状态,虚线是90%的置信度。 现在,对于此一维数据集,矩阵和分别只是标量和。所以现在我想使用卡尔曼滤波器的输出和对数似然函数为这些标量获取正确的参数Q 吨 σ ε σ …

1
AIC / BIC:排列计数多少个参数?
假设我有一个模型选择问题,我正在尝试使用AIC或BIC评估模型。这是简单的有一些数量模型的实值参数。ķkk 但是,如果我们的模型之一(例如Mallows模型)具有置换,加上一些实值参数而不是实值参数,该怎么办?我仍然可以使模型参数的似然性最大化,例如获得置换和参数。但是,为计算AIC / BIC计入多少个参数?p πππ\pipppππ\pi

1
从RMSE计算似然
我有一个模型来预测带有几个参数的轨迹(x作为时间的函数)。目前,我计算了预测轨迹与实验记录的轨迹之间的均方根误差(RMSE)。当前,我使用单纯形(matlab中的fminsearch)将这种差异(RMSE)最小化。虽然此方法可以很好地拟合,但我想比较几种不同的模型,所以我认为我需要计算似然性,以便可以使用最大似然估计而不是最小化RMSE(然后使用AIC或BIC比较模型)。有什么标准的方法可以做到这一点吗?

2
轮廓似然的Hessian用于标准误差估计
这个问题是由这个问题引起的。我查找了两个来源,这就是我发现的内容。 A. van der Vaart,渐进统计: 几乎不可能显式计算轮廓似然,但其数值评估通常是可行的。然后,轮廓似然可用于减小似然函数的维数。轮廓似然函数通常以与参数模型的(普通)似然函数相同的方式使用。除了上述的最大的他们的点作为估计,在二阶导数用作的估计减去e的渐近协方差矩阵的逆矩阵。最近的研究似乎证实了这种做法。 θθ^θ^\hat\thetaθ^θ^\hat\theta J. Wooldridge,《截面和面板数据的计量经济学分析》(两个版本均相同): 作为研究渐近性质的设备,由于通常取决于所有,因此集中目标函数的值是有限的,在这种情况下,目标函数不能写为独立的,均匀分布的求和的和。当我们从某些非线性面板数据模型集中特定于个体的效果时,就会出现一种方程式(12.89)是iid函数之和的设置。此外,集中目标函数对于建立看似不同的估算方法的等效性可能很有用。WG(W,β)g(W,β)g(W,\beta)w ^WW Wooldridge在更广泛的M估计量上下文中讨论了这个问题,因此它也适用于最大似然估计量。 因此,对于同一个问题,我们得到两个不同的答案。我认为魔鬼在于细节。对于某些模型,对于某些模型,我们可以安全地使用轮廓似然的hessian。是否有任何一般结果为我们何时(或不能这样做)提供条件?

1
即使模型不正确,MLE估计也渐近正常且有效吗?
前提:这可能是一个愚蠢的问题。我只知道有关MLE渐近性质的陈述,但我从未研究过证明。如果我这样做了,也许我不会问这些问题,或者我可能会意识到这些问题没有道理...所以请对我轻松一点:) 我经常看到这样的说法:模型参数的MLE估计量渐近是正常且有效的。该声明通常写为 ñ→∞θ^→dN(θ0,I(θ0)−1)θ^→dN(θ0,I(θ0)−1)\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})为N→∞N→∞N\to\infty 其中是样本数,是Fisher信息,是参数(向量)true值。现在,由于引用了真实模型,这是否意味着如果模型不真实,结果将不成立吗?我θ 0NNNII\mathbf{I}θ0θ0\theta_0 示例:假设我将风力涡轮机功率输出建模 为风速与加性高斯噪声的函数VPPPVVV P=β0+β1V+β2V2+ϵP=β0+β1V+β2V2+ϵP=\beta_0+\beta_1V+\beta_2V^2+\epsilon 我知道这个模式是错误的,至少有两个方面的原因:1)是真的成正比的第三电源和2)错误不是添加剂,因为我忽略未与风速不相关的其他预测(我也知道该应该是0,因为在0风速不发电,但在这里这是不相关)。现在,假设我有一个来自风力涡轮机的功率和风速数据的无限数据库。我可以画任意数量的任意大小的样本。假设我绘制了1000个样本,每个样本的大小为100,并计算\ hat {\ boldsymbol {\ beta}} _ {100},\ boldsymbol {\ beta} =(\ beta_0,\ beta_1,\ beta_2)的MLE估计V β 0PPPVVVβ0β0\beta_0β^100β^100\hat{\boldsymbol{\beta}}_{100}β=(β0,β1,β2)β=(β0,β1,β2)\boldsymbol{\beta}=(\beta_0,\beta_1,\beta_2)(在我的模型下,这只是OLS的估算值)。因此,我从\ hat {\ boldsymbol {\ beta}} _ {100}的分布中获得了1000个样本β^100β^100\hat{\boldsymbol{\beta}}_{100}。我可以用N = 500,1000,1500,\ dots重复练习N=500,1000,1500,…N=500,1000,1500,…N=500,1000,1500,\dots。由于N→∞N→∞N\to\infty,\ hat {\ boldsymbol {\ beta}} _ {N}的分布是否应β^Nβ^N\hat{\boldsymbol{\beta}}_{N}趋于渐近正态分布,且具有均值和方差?还是模型不正确的事实会使该结果无效? 我问的原因是,很少(如果有的话)模型在应用程序中是“真实的”。如果在模型不正确时失去MLE的渐近特性,则可能有必要使用不同的估计原理,虽然在模型正确的情况下其功能不那么强大,但在其他情况下可能会比MLE更好。 编辑:在评论中指出,真实模型的概念可能有问题。我想到了以下定义:给定一个模型族由参数矢量,对于该族中的每个模型,您始终可以编写 fθ(x)fθ(x)f_{\boldsymbol{\theta}}(x)θθ\boldsymbol{\theta} Y=fθ(X)+ϵY=fθ(X)+ϵY=f_{\boldsymbol{\theta}}(X)+\epsilon 只需将定义为。但是,通常该误差不会与正交,平均值为0,并且不一定会在模型推导中具有假定的分布。如果存在一个,使得具有这两个属性以及假定的分布,我会说该模型是正确的。我认为这与说直接相关,因为分解中的误差项ϵϵ\epsilonY−fθ(X)Y−fθ(X)Y-f_{\boldsymbol{\theta}}(X)XXXθ0θ0\boldsymbol{\theta_0}ϵϵ\epsilonfθ0(X)=E[Y|X]fθ0(X)=E[Y|X]f_{\boldsymbol{\theta_0}}(X)=E[Y|X] Y=E[Y|X]+ϵY=E[Y|X]+ϵY=E[Y|X]+\epsilon 具有上述两个属性。

1
您可以简单地对IRLS方法进行直观的解释,以找到GLM的MLE吗?
背景: 我正在尝试遵循普林斯顿对GLM的MLE估计的评论。 我明白MLE估计的基础:likelihood,score,观察和期望Fisher information与Fisher scoring技术。而且我知道如何用MLE估计来证明简单的线性回归。 问题: 我什至不了解这种方法的第一行:( 工作变量定义为以下内容的直觉是什么:ž一世ziz_i ž一世= η^一世+ (y一世- μ^一世)dη一世dμ一世zi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} 为什么用它们代替来估计β?ÿ一世yiy_iββ\beta 它们与的关系response/link function是和μ之间的关系ηη\etaμμ\mu 如果有人有一个简单的解释,或者可以指导我获得更基本的说明,我将不胜感激。

1
寻求对生育逻辑回归的理论理解
我试图理解Firth逻辑回归(在逻辑回归中处理完全/完全或准完全分离的方法),所以我可以用简化的方式向他人解释。有人对Firth估计对MLE所做的修改有模糊的解释吗? 我已尽力阅读Firth(1993),并且我了解到对分数函数进行了更正。我对修正的起源和合理性以及分数函数在MLE中所起的作用不甚了解。 抱歉,这是基本知识。我所阅读的文献似乎需要比我拥有的对MLE的更深刻的理解。

3
什么是矩量法,它与MLE有何不同?
通常,矩量方法似乎只是将观测到的样本均值或方差与理论矩量相匹配以获得参数估计。我了解到,这通常与指数家庭的MLE相同。 但是,即使找到似然函数的模式可能比较棘手,也很难找到一个清晰的矩量方法定义和一个清晰的讨论来解释为什么MLE通常受到青睐。 这个问题MLE比Moment方法更有效吗?哈佛大学的唐纳德·鲁宾教授引述唐纳德·鲁宾的话说,自40年代以来,每个人都知道MLE胜过MoM,但我有兴趣了解其历史或原因。

3
仅给出边际计数的联合分布的最大似然估计
令是两个类别变量的联合分布,其中。说从该分布中抽取了样本,但仅给出了边际计数,即: X ,ÿ X ,ÿ ∈ { 1 ,... ,ķ } Ñ Ĵ = 1 ,... ,ķpx,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, 给定,的最大似然估计是?这是已知的吗?计算上可行吗?除了机器学习之外,还有其他合理的方法来解决这个问题吗?小号Ĵ,Ť Ĵpx,ypx,yp_{x,y}Sj,TjSj,TjS_j,T_j

1
手动计算对数似然,以进行广义非线性最小二乘回归(nlme)
我正在尝试为函数优化的广义非线性最小二乘回归计算对数似然功能在R包,使用由距离上AA进化树假设(布朗运动产生的方差协方差矩阵从包中)。以下可重现的R代码使用x,y数据和具有9个分类单元的随机树来拟合gnls模型:f(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}gnlsnlmecorBrownian(phy=tree)ape require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) 我想logLik根据从获得的估计参数来“手动”计算对数似然(在R中,但不使用函数),gnls因此它与的输出匹配logLik(fit)。注意:我不是要估计参数;我只想计算该函数估计的参数的对数似然gnls性(尽管如果有人提供了一个可重现的示例,说明了如何在不使用的情况下估计参数gnls,我将非常感兴趣!)。 我不确定如何在R中执行此操作。S和S-Plus的混合效果模型(Pinheiro和Bates)中描述的线性代数表示法让我非常头疼,而且我的尝试都没有logLik(fit)。以下是Pinheiro和Bates描述的详细信息: 对数似然为广义非线性最小二乘模型 其中的计算方法如下:φ 我 = 甲我 βÿ一世= f一世(ϕ一世,v一世)+ ϵ一世yi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕ一世= A一世βϕi=Aiβ\phi_i=A_i\beta 升(β,σ2,δ| ÿ)= − 12{ N日志(2 πσ2)+ ∑我= …

1
概率比率与PDF比率
我正在使用贝叶斯解决聚类问题。经过一些计算,我最终需要获得两个概率的比率: P(A)/P(B)P(A)/P(B)P(A)/P(B) 以获得。这些概率是通过将两个不同的2D多元KDE集成而获得的,如以下答案所示:P(H|D)P(H|D)P(H|D) P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy 其中f^(x,y)f^(x,y)\hat{f}(x, y)和g^(x,y)g^(x,y)\hat{g}(x, y)是KDE,并且对低于阈值f^(ra,sa)f^(ra,sa)\hat{f}(r_a, s_a)和g^(rb,sb)g^(rb,sb)\hat{g}(r_b, s_b)。两个KDE都使用高斯内核。可以在这里看到与我正在使用的KDE类似的KDE代表性图像:在2D中集成内核密度估计器。 我通过stats.gaussian_kde python函数来计算KDE,因此我假设它具有以下一般形式: KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y)=1n∑i=1n−12h2e−(x−xi)2+(y−yi)22h2KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}} n我的点阵列的长度在哪里,h使用的带宽是多少。 上面的积分是使用蒙特卡洛过程计算的,该过程在计算上非常昂贵。我已经读过某处(忘了在哪里,对不起),在这种情况下,可以用在阈值点评估的PDF(KDE)比率替换概率比率,以获得同样有效的结果。我对此感兴趣,因为计算KDEs的比率要比计算MC积分的比率要快几个数量级。 因此问题被简化为该表达式的有效性: P(A)P(B)=f^(ra,sa)g^(rb,sb)P(A)P(B)=f^(ra,sa)g^(rb,sb)\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)} 在什么情况下(如果有的话)我可以说这种关系是正确的? [固定错字(编辑)] …

2
MLE是否总是意味着我们知道数据的基础PDF,而EM是否意味着我们不知道?
关于MLE(最大似然估计),以及与EM(期望最大化)之间的联系,我想澄清一些简单的概念性问题。 据我了解,如果有人说“我们使用了MLE”,这是否自动意味着他们拥有其数据PDF的显式模型?在我看来,答案是肯定的。换句话说,如果有人在任何时候说“ MLE”,可以公平地问他们假设使用什么PDF。这是正确的吗? 最后,在EM上,我的理解是,在EM中,我们实际上并不知道-或需要知道我们数据的基础PDF。这是我的理解。 谢谢。

2
在2D中集成内核密度估计器
我来自这个问题,以防有人要跟踪。 基本上,我有一个由对象组成的数据集,其中每个对象都具有给定数量的测量值(在这种情况下为两个):ΩΩ\OmegaNNN Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] 我需要一种确定新对象属于的概率的方法,因此建议我通过内核密度估计器获得概率密度,我相信我已经有。p[xp,yp]p[xp,yp]p[x_p, y_p]˚FΩΩ\Omegaf^f^\hat{f} 由于我的目标是获得这个新对象的概率(属于这个二维数据集),有人告诉我到PDF集成在“ 为其支持的值密度小于您观察到的密度 ”。在新对象评估“观察”密度,即:。所以我需要求解方程:Ω ˚F ˚F p ˚F(X p,ÿ p)p[xp,yp]p[xp,yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^(xp,yp)f^(xp,yp)\hat{f}(x_p, y_p) ∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy 我的2D数据集的PDF(通过python的stats.gaussian_kde模块获得)如下所示: 红点代表新对象绘制在我的数据集的PDF上。p[xp,yp]p[xp,yp]p[x_p, y_p] 所以问题是:当pdf看起来像这样时,如何计算极限的上述积分?x,y:f^(x,y)&lt;f^(xp,yp)x,y:f^(x,y)&lt;f^(xp,yp)x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p) 加 我进行了一些测试,以查看我在评论之一中提到的蒙特卡洛方法的效果。这是我得到的: 对于较低密度的区域,该值似乎会有更多变化,两个带宽或多或少都显示出相同的变化。比较Silverman的2500和1000样本值时,表中最大的变化发生在点(x,y)=(2.4,1.5)处,其差值为0.0126或~1.3%。就我而言,这在很大程度上是可以接受的。 编辑:我只是注意到,根据此处给出的定义,在二维中Scott的规则等效于Silverman的规则。

6
如果您使用使最大化的点估计,那对您的哲学有何看法?(是常客还是贝叶斯或其他?)
如果有人说 “该方法对最大使用参数的MLE点估计,因此它是常客的;而且它不是贝叶斯。”P (x | θ )P(x|θ)\mathrm{P}(x|\theta) 你同意吗? 背景资料:最近我读了一篇自称是常客的论文。我不同意他们的主张,充其量我感到模棱两可。本文未明确提及MLE(或MAP)。他们只进行点估计,就好像这个点估计是正确的一样继续进行。他们不对这个估计量的采样分布进行任何分析,或者类似的分析;该模型非常复杂,因此可能无法进行此类分析。他们也不在任何时候使用“后”一词。他们只是将这一点的估计值作为票面价值,然后转到他们感兴趣的主要主题-推断丢失的数据。我认为他们的方法没有任何东西可以说明他们的哲学。他们可能打算成为常客(因为他们觉得有必要在袖子上穿上自己的哲学),但是他们的实际做法却很简单/方便/懒惰/模棱两可。我现在要说的是,这项研究实际上没有任何哲学依据。相反,我认为他们的态度更加务实或方便: “我已经观察到数据,并且希望估计一些缺失的数据。有一个参数控制着和之间的关系。我真的不在乎只是作为达到目的的一种手段。如果我有一个的估计,它将使从预测变得更加容易。我会选择一个的点估计,因为它很方便,尤其是我会选择最大化的。”ž θ žXxxžzzθθ\thetažzzθ θ ž X θ θ P(X | θ )Xxxθθ\thetaθθ\thetazzzxxxθθ\thetaθ^θ^\hat{\theta}P(x|θ)P(x|θ)\mathrm{P}(x|\theta) 一个无偏估计量的想法显然是一个频率主义的概念。这是因为它不以数据为条件,并且描述了一个很好的属性(无偏),该属性可以容纳参数的所有值。 在贝叶斯方法中,数据和参数的作用有点相反。特别是,我们现在以观察到的数据为条件,并继续对参数的值进行推断。这需要先验。 到目前为止,一切都很好,但是MLE(最大似然估计)在哪里适合呢?我给人的印象是,很多人认为它是频率论者(或更确切地说,它不是贝叶斯主义者)。但是我觉得它是贝叶斯方法,因为它涉及获取观察到的数据,然后找到使最大化的。MLE隐式地使用统一的先验并以数据为条件,并使最大化。公平地说,MLE看起来既是频率派的又是贝叶斯的?还是每个简单的工具都必须完全属于这两种类别之一?P (p 一个ř 一米ë 吨ë [R | d 一吨一)P(data|parameter)P(data|parameter)P(data | parameter)P(parameter|data)P(parameter|data)P(parameter | data) MLE是一致的,但我认为一致性可以表示为贝叶斯思想。给定任意大的样本,估计值收敛于正确答案。对于参数的所有值,语句“估计值将等于真实值”成立。有趣的是,如果您以观察到的数据为条件,则该语句也成立,从而使其成为贝叶斯式。除了MLE之外,还有其他有趣的地方,但对于无偏估计器却没有。 这就是为什么我认为MLE是方法中的“最高级贝叶斯”方法,可以说是“频繁方法”。 无论如何,大多数频率属性(例如无偏)都适用于所有情况,包括有限的样本量。一致性仅在不可能的情况下保持有效(一个实验中有无限个样本),这一事实表明一致性并不是一个有用的属性。 给定一个现实的(即有限的)样本,是否存在一个适用于MLE的Frequentist属性?如果不是这样,那么MLE并不是真正的频率偏高者。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.