Questions tagged «maximum-likelihood»

一种通过选择优化观察给定样本概率的参数值来估算统计模型参数的方法。

2
我怎么知道选择哪种参数估计方法?
那里有很多用于参数估计的方法。MLE,UMVUE,MoM,决策理论等似乎都具有合理的理由说明为什么它们可用于参数估计。是任何一种方法都比其他方法更好,还是仅取决于我们如何定义“最佳拟合”估计量(类似于最小化正交误差如何与普通最小二乘法产生不同的估计值)?


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

4
比较最大似然估计(MLE)和贝叶斯定理
在贝叶斯定理中,,从我正在阅读的书中,称为可能性,但我认为这只是给定时的条件概率,对吗? p(x|y)p(y|x)=p(x|y)p(y)p(x)p(y|x)=p(x|y)p(y)p(x)p(y|x) = \frac{p(x|y)p(y)}{p(x)}p(x|y)p(x|y)p(x|y)ÿxxxyyy 在最大似然估计试图最大化,对不对?如果是这样,我很困惑,因为都是随机变量,对吗?为了最大限度地提高只是找出了?还有一个问题,如果这两个随机变量是独立的,则只是,对吗?然后,最大化就是最大化。x ,y p (x | y )p(x|y)p(x|y)p(x|y)x,yx,yx,yp(x|y)p(x|y)p(x|y) p(X|Ý)p(X)p(X|Ý)p(X)y^y^\hat yp(x|y)p(x|y)p(x|y)p(x)p(x)p(x)p(x|y)p(x|y)p(x|y)p(x)p(x)p(x) 也许是某些参数的函数,即,而MLE试图找到可以最大化的?或者甚至实际上是模型的参数,而不是随机变量,因此最大化可能性是找到?θ p (X | Ý ; θ )θ p (X | Ý )ÿ ÿp(x|y)p(x|y)p(x|y)θθ\thetap (x | y; θ )p(x|y;θ)p(x|y; \theta)θθ\thetap (x | y)p(x|y)p(x|y)ÿyyÿ^y^\hat y 更新 我是机器学习的新手,这个问题与我从机器学习教程中读到的内容相混淆。在这里,给定观察到的数据集,目标值为,我尝试在该数据集上拟合模型,所以我假设给定,具有一种分布形式由参数化,即,并且我假设这是后验概率,对吗?{ ÿ 1,ÿ 2,。。。,ÿ Ñ } X ý W¯¯ θ p (Ý …

4
对于给定的估算技术和参数,样本应为多大?
是否有经验法则或什至没有任何方法来说明样本的大小,以便用给定数量的参数估计模型? 因此,例如,如果我想估计具有5个参数的最小二乘回归,则样本应为多大? 您使用哪种估计技术(例如,最大似然,最小二乘,GMM),或者要执行多少测试或什么测试,有关系吗?做出决定时是否应考虑样本变异性?

4
MLE和交叉熵之间的联系在深度学习中有多有意义?
我了解给定了独立的观测值 的最大似然估计(或,等价地,具有平坦的MAP /均匀)之前标识所述参数\ mathbf {θ}产生该模型分布 P_ {模型} \ 与这些观测值最匹配的left(\,\ cdot \,; \ mathbf {θ} \ right)将是直径: = { Ö (1 ),。。。,o (m ) }mmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 或者,更方便 θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=arg⁡minθ∑i=1m−log⁡pmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) 并了解θMLθML\mathbf{θ}_{ML}在定义多类深度神经网络的损失函数中可以发挥的作用,其中θθ\mathbf{θ}对应于网络的可训练参数(例如θ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} ),观察值是输入激活对xx\mathbf{x}和相应的正确类标签y∈[1,k]y∈[1,k]y \in …



1
三角形分布的MLE?
是否可以将常规的MLE程序应用于三角形分布?-我正在尝试,但是在数学上似乎一步一步被定义分布的方式所阻塞。我试图利用一个事实,即我知道c上下的样本数量(不知道c):如果n是样本总数,则这两个数字是cn和(1-c)n。但是,这似乎无助于推导。此刻的时刻给出了c的估计量,没有太大的问题。这里的MLE阻塞的确切性质是什么(如果确实存在)? 更多细节: 让我们考虑在,并在规定的分配由: [ 0 ,1 ] [ 0 ,1 ]Ccc[ 0 ,1 ][0,1][0,1][ 0 ,1 ][0,1][0,1] F(x ; c )= 2 xCf(x;c)=2xcf(x;c) = \frac{2x}{c}如果x <c如果c <= x,则 F(x ; c )= 2 (1 − x )(1 − c )f(x;c)=2(1−x)(1−c)f(x;c) = \frac{2(1-x)}{(1-c)} 让我们从这个分布中取 iid样本,以给定该样本的c的对数似然性为例:{ x i }ñnn{ x一世}{xi}\{x_{i}\} 升^(c | …

1
黑森矩阵和协方差矩阵之间的关系
在研究最大似然估计时,要进行最大似然估计的推论,我们需要知道方差。要找出方差,我需要知道Cramer的Rao下界,它看起来像是在曲率上具有二阶导数的Hessian矩阵。我有点混在一起来定义协方差矩阵和粗麻布矩阵之间的关系。希望听到有关该问题的一些解释。一个简单的例子将不胜感激。

2
最大似然参数偏离后验分布
我有一个似然函数大号(d| θ)L(d|θ)\mathcal{L}(d | \theta)为我的数据的概率ddd给出一些模型参数θ∈RNθ∈RN\theta \in \mathbf{R}^N,我想估计。假设先验参数平坦,则似然度与后验概率成正比。我使用MCMC方法来采样这种可能性。 查看生成的收敛链,我发现最大似然参数与后验分布不一致。例如,对于一个参数的边缘化后验概率分布可能是θ0∼N(μ=0,σ2=1)θ0∼N(μ=0,σ2=1)\theta_0 \sim N(\mu=0, \sigma^2=1),而值θ0θ0\theta_0在最大似然点是θML0≈4θ0ML≈4\theta_0^{ML} \approx 4,基本上是几乎最大值θ0θ0\theta_0通过MCMC采样器遍历。 这是一个说明性的例子,不是我的实际结果。实际分布要复杂得多,但是某些ML参数在其各自的后验分布中具有类似的不太可能具有p值。注意,我的一些参数的有界(例如0≤θ1≤10≤θ1≤10 \leq \theta_1 \leq 1); 在范围内,先验总是一致的。 我的问题是: 这样的偏差本身就是问题吗?显然,我不希望ML参数与它们的每个边缘化后验分布的最大值完全一致,但是从直觉上来说,感觉它们也不应该在尾部深处发现。这种偏离会自动使我的结果无效吗? 这是否一定有问题,在数据分析的某个阶段是否可能是特定病理的症状?例如,是否有可能做出一般性的陈述,说明这种偏差是由不正确的收敛链,不正确的模型还是对参数的过度约束引起的?

4
无可能性的推断-这是什么意思?
最近,我意识到文学中流传着“无可能性”方法。但是我不清楚推理或优化方法是没有可能性的意味着什么。 在机器学习中,目标通常是使某些参数拟合函数的可能性最大化,例如神经网络上的权重。 那么,无可能性方法的原理到底是什么?为什么像GAN这样的对抗网络却属于这一类呢?

2
为什么限制最大似然会产生更好的(无偏的)方差估计?
我正在阅读道格·贝茨(Doug Bates)关于R的lme4程序包的理论论文,以更好地理解混合模型的本质,并遇到了一个我想更好理解的有趣结果,即使用受限最大似然(REML)估计方差。 在关于REML标准的第3.3节中,他指出,在拟合线性模型中根据残差估计方差时,在方差估计中使用REML与使用自由度校正紧密相关。特别是,“尽管通常不是这样得出的”,但可以通过优化“ REML准则”估算方差来推导自由度校正(公式(28))。REML标准基本上只是可​​能性,但是线性拟合参数已通过边缘化来消除(而不是将其设置为等于拟合估计值,这会产生有偏差的样本方差)。 我进行了数学运算,并验证了仅具有固定效果的简单线性模型所声称的结果。我正在努力的是解释。是否存在某种观点,可以通过优化拟合参数被边缘化的可能性来自然地推导方差估计?感觉有点像贝叶斯,好像我认为似然性是后验的,将拟合参数边缘化,就好像它们是随机变量一样。 还是说辩护主要只是数学上的-它在线性情况下有效,但也可以推广?

1
最大似然估计的几何解释
我正在阅读富兰克林·费舍尔(Franklin M. Fisher)的《计量经济学中的识别问题》一书,对他通过可视化似然函数来演示识别的部分感到困惑。 该问题可以简化为: 对于回归,其中Ú 〜我。我。d 。Ñ (0 ,σ 2我), 一个和b是参数。假设Y的系数c等于1。然后,在c ,a ,b空间中的似然函数 将沿着射线具有与真实参数的向量及其标量倍数相对应的脊ÿ= a + Xb + uÿ=一种+Xb+üY=a+Xb+u你〜我。我。d。ñ(0 ,σ2一世)ü〜一世。一世。d。ñ(0,σ2一世)u \sim i.i.d. N(0,\sigma^2I)一种一种abbbÿÿYCCcc ,a ,bC,一种,bc, a,b。仅考虑给定的位置时,似然函数在光线与该平面相交的点处将具有唯一的最大值。c = 1C=1个c=1 我的问题是: 关于演示中提到的山脊和射线,应该如何理解和推理。 由于射线是真实的参数和标量,因此为什么射线不在给出的平面上,因为参数c的真实值为1。c = 1C=1个c=1CCc


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.