Questions tagged «maximum-likelihood»

一种通过选择优化观察给定样本概率的参数值来估算统计模型参数的方法。

2
作为新观测数据流的方式递归更新MLE
一般问题 假设我们有iid数据x1x1x_1,,... \ sim f(x \,| \,\ boldsymbol {\ theta})流进来。我们要递归计算\ boldsymbol {\ theta}的最大似然估计。也就是说,已经计算了 \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f(x_i \,| \,\ …

5
M估计量的经验式Hessian可以不确定吗?
Jeffrey Wooldridge在他的 “横截面和面板数据的计量经济学分析”(第357页)中说,经验Hessian“对于我们正在处理的特定样本,不能保证为正定,甚至正半定”。 对于我来说,这似乎是错误的,因为(由于数字问题)Hessian必须是正半定的,这是因为M估计量的定义是参数的值,该参数使给定样本的目标函数最小化,并且众所周知,在(局部)最小值处,Hessian为正半定值。 我的说法正确吗? [编辑:该语句已在第二版中删除。这本书。见评论。 背景技术假设θ Ñ是通过最小化所获得的估计 1θˆNθ^N\widehat \theta_N1N∑i=1Nq(wi,θ),1N∑i=1Nq(wi,θ),{1 \over N}\sum_{i=1}^N q(w_i,\theta), 其中wiwiw_i表示第iii个观测值。 让我们表示的海赛qqq通过HHH, H(q,θ)ij=∂2q∂θi∂θjH(q,θ)ij=∂2q∂θi∂θjH(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j} 的渐近协方差θ Ñ涉及ë [ ħ (q ,θ 0)],其中θ 0θˆnθ^n\widehat \theta_nE[H(q,θ0)]E[H(q,θ0)]E[H(q,\theta_0)]θ0θ0\theta_0是真参数值。估计它的一种方法是使用经验式的Hessian Hˆ=1N∑i=1NH(wi,θˆn)H^=1N∑i=1NH(wi,θ^n)\widehat H=\frac{1}{N}\sum_{i=1}^N H(w_i,\widehat \theta_n) 它的确定性^ h这是个问题。HˆH^\widehat H

6
我们曾经使用最大似然估计吗?
我想知道统计中是否曾经使用过最大似然估计。我们学习了它的概念,但我不知道它何时实际使用。如果我们假设数据的分布,我们会找到两个参数,一个用于平均值,一个用于方差,但是您实际在实际情况下使用它吗? 有人可以告诉我一个简单的例子吗?

2
对于什么模型,MLE的偏差下降快于方差?
θ^\hat\thetaθ∗\theta^*nn‖ˆθ−θ∗‖∥θ^−θ∗∥\lVert\hat\theta-\theta^*\rVertO(1/√n)O(1/n−−√)O(1/\sqrt n)‖Eˆθ−θ∗‖∥Eθ^−θ∗∥\lVert \mathbb E\hat\theta - \theta^*\rVert‖Eˆθ−ˆθ‖∥Eθ^−θ^∥\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/√n)O(1/n−−√)O(1/\sqrt{n}) 我对具有比更快地收缩的偏差的模型感兴趣,但是其中的误差不会以这种更快的速率收缩,因为偏差仍以收缩。特别是,我想知道足够的条件来使模型的偏差以的速率收缩。O(1/√n)O(1/n−−√)O(1/\sqrt n)O(1/√n)O(1/n−−√)O(1/\sqrt n)O(1/n)O(1/n)O(1/n)

1
受限制的最大似然比小于
此问题处理线性模型的特定版本中的受限最大似然(REML)估计,即: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), 其中为(Ñ × p)矩阵由参数化α ∈ [R ķ,因为是Σ (α )。β是令人讨厌的参数的未知向量;兴趣是在估计α,我们有ķ ≤ p « Ñ。通过最大可能性估计模型没有问题,但是我想使用REML。众所周知,参见例如LaMotte的,即似然甲' ÿ,其中阿是任何半正交矩阵,使得X(α)X(α)X(\alpha)n×pn×pn \times pα∈Rkα∈Rk\alpha \in \mathbb R^kΣ(α)Σ(α)\Sigma(\alpha)ββ\betaαα\alphak≤p≪nk≤p≪nk\leq p\ll nA′YA′YA'YAAA可以写成A′X=0A′X=0A'X=0 LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y,LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp⁡{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y, L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y, 当为完整列等级时XXX。 我的问题是,对于某些完全合理且科学有趣的,矩阵X (α …

1
为什么我们要讨论不同拓扑中不同估计量的收敛行为?
在《代数几何与统计学习理论》一书的第一章中,讨论了不同函数空间中的估计的收敛性,其中提到贝叶斯估计对应于Schwartz分布拓扑,而最大似然估计对应于超范数拓扑(第7页): 例如sup-norm, -norm,希尔伯特空间弱拓扑,Schwartz分布拓扑等。是否收敛成立,很大程度上取决于函数空间的拓扑。贝叶斯估计对应于Schwartz分布拓扑,而最大似然或后验方法对应于超范数。这种差异会强烈影响单一模型的学习结果。大号p大号pL^p大号2大号2L^2ķñ( w )→ K( w )ķñ(w)→ķ(w)K_n(w)\to K(w) 其中和分别是真实模型与参数模型(参数)之间的经验KL散度(观测值之和)和真实KL散度(数据分布的总和)。Kn(w)Kn(w)K_n(w)K(w)K(w)K(w)www 谁能解释一下,或暗示我书中哪个地方有道理?谢谢。 更新:版权内容已删除。

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

6
MLE vs MAP估计,什么时候使用?
MLE =最大似然估计 MAP =最大后验 MLE是直观/天真的,因为它仅从给定参数(即似然函数)的观察概率开始,并尝试找到与观察最相符的参数。但是它没有考虑先验知识。 MAP似乎更合理,因为它确实考虑了贝叶斯规则中的先验知识。 这是一个相关的问题,但答案并不彻底。 /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d 因此,我认为MAP更好。那正确吗?那我什么时候该使用呢?

1
对数回归最大化的逻辑回归是否也必然使线性模型的AUC最大化?
给定的数据集与二元结果ÿ∈ { 0 ,1 }ñy∈{0,1}ny\in\{0,1\}^n和一些预测矩阵X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p},标准逻辑回归模型估计系数βMLEβMLE\beta_{MLE}其最大化二项式可能性。当XXX是满秩βMLEβMLE\beta_{MLE}是独一无二的; 当不存在完美分离时,它是有限的。 这是否最大似然模型还最大化ROC AUC(又名ccc t-统计),还是存在一些系数估计βAUC≠βMLEβAUC≠βMLE\beta_{AUC} \neq \beta_{MLE}这将获得较高的ROC AUC?如果确实MLE不一定使ROC AUC最大化,那么看这个问题的另一种方式是“是否存在似然最大化的替代方案,它将始终使对数回归的ROC AUC最大化?” 我假设模型在其他方面是相同的:我们不会在XXX添加或删除预测变量,也不会更改模型规格,并且我假设似然最大化和AUC最大化模型正在使用相同的链接函数。

1
给定单个样本的概率为0,为什么MLE有意义?
我在回顾一些旧的统计数据时有一种奇怪的想法,由于某种原因,我似乎无法想到答案。 连续的PDF告诉我们在任何给定范围内的观测值的密度。即,如果X〜ñ(μ ,σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2),例如,则概率一个实现落在之间一种aa和bbb是简单地∫b一种ϕ (x )dX∫abϕ(x)dx\int_a^{b}\phi(x)dx,其中ϕϕ\phi是标准正态的密度。 当我们考虑对参数(例如μμ\mu进行MLE估计时,我们写出了ñNN(随机变量X1个。。XñX1..XNX_1 .. X_N的联合密度。。X N并将对数似然比wrt区分为μμ\mu,设置为0并求解μμ\mu。通常给出的解释是“给定数据,该参数使该密度函数最合理”。 让我烦恼的部分是:我们的密度为ñNN rv,我们的样本表示,获得特定实现的概率恰好为0。在给定数据的情况下,为什么最大化关节密度甚至有意义(因为再次观察到我们实际样本的概率恰好是0)? 我能想到的唯一合理化方法是,我们希望使PDF 在我们观察到的样本周围尽可能达到峰值,以使该区域中的积分(从而观察该区域中的东西的概率)最高。

1
实践中仍在使用常客性条件推理吗?
我最近回顾了南希·里德,巴恩多夫-尼尔森,理查德·考克斯以及是的罗纳德·费舍尔的一些旧论文,这些论文涉及惯常主义范式中的“条件推论”概念,这似乎意味着推论仅基于考虑样本空间的“相关子集”,而不是整个样本空间。 作为一个关键的例子,如果您还考虑样本的变异系数(称为辅助统计量),则可以改善基于t统计量的置信区间(Goutis&Casella,1992)。 作为经常使用基于似然性推断的人,我假设当我形成一个渐近%置信区间时,我正在执行(近似)条件推断,因为似然性取决于观察样本。αα\alpha 我的问题是,除了条件逻辑回归之外,我还没有看到在推断之前对辅助统计条件进行调整的想法的使用。这种类型的推理是仅限于指数族,还是现在使用其他名称,所以它似乎仅是有限的。 我发现最近的一篇文章(Spanos,2011年)似乎对有条件推论(即无礼)所采用的方法产生了严重怀疑。取而代之的是,它提出了一个非常明智且数学上不那么费解的建议,即可以通过删节通常的无条件采样分布来解决“不规则”情况下的参数推断(其中分布的支持由参数确定)。 弗雷泽(Fraser(2004))很好地证明了条件性,但我仍然感到,要对复杂的情况实际应用条件推理,不仅需要运气和独创性,而且肯定比调用卡方更为复杂。 “近似”条件推断的似然比统计量的近似。 威尔士(2011,第163页)可能已经回答了我的问题(3.9.5,3.9.6)。 他们指出了巴苏的著名结果(巴苏定理),其中可能有不止一个辅助统计量,这是关于哪个“相关子集” 最相关的问题。更糟糕的是,它们显示了两个示例,这些示例说明即使您具有唯一的辅助统计信息,也无法消除其他相关子集的存在。 他们继续得出结论,只有贝叶斯方法(或与之等效的方法)才能避免此问题,从而实现无条件的条件推断。 参考文献: ttt Spanos,阿里斯。“重新审视韦尔奇统一模型:有条件推论的情况吗?”。 统计科学进展与应用 5(2011):33-52。 DAS弗雷泽(Fraser),“辅助条件和条件推断”。 统计科学 19.2(2004):333-369。 威尔士,艾伦·H 。统计推论。卷 916.约翰·威利父子,2011年。

1
方差分析是否依靠矩量法而不是最大似然法?
我在不同地方看到提到ANOVA使用矩量法进行估算。 我对这个说法感到困惑,因为即使我不熟悉矩量法,但我的理解是,它不同于最大似然法,并且不等同于最大似然法。另一方面,方差分析可以看作是具有类别预测变量的线性回归,回归参数的OLS估计是最大可能性。 所以: 什么使方差分析程序符合力矩方法? 鉴于ANOVA等同于带有分类预测变量的OLS,这不是最大可能性吗? 如果这两种方法在常规ANOVA的特殊情况下以某种方式等效,那么当差异变得重要时,是否存在某些特定的ANOVA情况?不平衡的设计?重复措施?混合(学科间+学科内)设计?

3
线性回归:是否有任何非正态分布给出OLS和MLE的身份?
这个问题的灵感来自长期的评论讨论: 线性回归如何使用正态分布? 在通常的线性回归模型中,为了简单此处写入只有一个预测器: ÿ一世= β0+ β1个X一世+ ϵ一世Yi=β0+β1xi+ϵi Y_i = \beta_0 + \beta_1 x_i + \epsilon_i 其中X一世xix_i是已知的常数,ϵ一世ϵi\epsilon_i是零均值独立误差项。如果我们除了承担的误差正态分布,则通常的最小二乘估计和最大似然估计β0,β1个β0,β1\beta_0, \beta_1是相同的。 因此,我的问题很简单:误差项是否存在其他分布,以使mle与普通最小二乘方估计量相同?一种含义很容易显示,另一种则不然。

3
最大可能性或边际可能性哪一个更好,为什么?
在执行回归时,如果我们遵循以下定义:部分可能性,轮廓可能性和边际可能性之间的区别是什么? 即,最大似然 找到使L(β,θ| data)最大化的β和θ。 同时,边际似然 我们利用可以识别以β为条件的θ的概率分布这一事实,将θ从似然方程中积分出来。 哪种方法可以最大化最大化?为什么?

1
Cauchy分布中的位置参数的MLE
居中后,可以将两个测量值x和-x假定为具有概率密度函数的柯西分布的独立观测值: 1F(x :θ )=f(x:θ)=f(x :\theta) = ,-∞&lt;x&lt;∞1个π(1 + (X - θ )2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) ,- ∞ &lt; X &lt; ∞,−∞&lt;x&lt;∞, -∞ < x < ∞ 表明,如果的MLE θ是0,但如果X 2 &gt; 1有两个MLE的θ,等于± √X2≤ 1x2≤1x^2≤ 1θθ\thetaX2&gt; 1x2&gt;1x^2>1θθ\thetaX2− 1-----√x2−1\sqrt {x^2-1} 我认为要找到MLE,必须区分对数可能性: =Σ2(X我-θ)d升dθdldθdl\over d\theta = ∑=∑=\sum =2(-X-θ)2 (x一世- θ )1 + (x一世- θ )22(xi−θ)1+(xi−θ)22(x_i-\theta)\over 1+(x_i-\theta)^2 === …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.