统计和大数据 maximum-likelihood

1

我阅读了此页面：http : //neuralnetworksanddeeplearning.com/chap3.html 它说具有交叉熵的S形输出层与具有对数似然的softmax输出层非常相似。如果我在输出层中使用具有对数似然的S型或具有交叉熵的softmax会发生什么？可以吗因为我看到交叉熵（eq.57）之间的方程式几乎没有区别： C=−1n∑x(ylna+(1−y)ln(1−a))C=−1n∑x(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) 和对数似然（eq.80）： C=−1n∑x(lnaLy)C=−1n∑x(ln⁡ayL)C =-\frac{1}{n} \sum\limits_x(\ln a^L_y)

31 neural-networks maximum-likelihood softmax

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

Fisher信息是什么信息？

假设我们有一个随机变量X〜˚F（x | θ ）X〜F（X|θ）X \sim f(x|\theta)。如果θ0θ0\theta_0是真正的参数，则所述似然函数应最大化和衍生物等于零。这是最大似然估计器背后的基本原理。据我了解，费舍尔信息被定义为一世（θ ）= E [ （∂∂θF（X| θ））2]一世（θ）=Ë[（∂∂θF（X|θ））2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 因此，如果θ0θ0\theta_0是真实参数，一世（θ ）= 0一世（θ）=0I(\theta) = 0。但如果θ0θ0\theta_0是不是真正的参数，那么我们将有费希尔信息量更大。我的问题 Fisher信息是否衡量给定MLE的“错误”？换句话说，是否存在积极的Fisher信息并不意味着我的MLE不够理想？ “信息”的定义与Shannon使用的定义有何不同？我们为什么称其为信息？

29 bayesian maximum-likelihood likelihood intuition fisher-information

1

截断分布的最大似然估计

考虑从随机变量获得的独立样本，假定该随机变量遵循已知（有限）最小值和最大值和的截断分布（例如，截断的正态分布），但是参数和未知。如果遵循非截短的分布中，最大似然估计和为和从将样本均值NNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i和样本方差。但是，对于截断的分布，以这种方式定义的样本方差以为界，因此它并不总是一致的估计量：对于，它不可能收敛到当达到无穷大时，。因此，对于，和似乎不是和的最大似然估计。当然，这是可以预期的，因为和σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 截断正态分布的参数不是其均值和方差。那么，已知最小值和最大值的截断分布的和参数的最大似然估计是多少？μμ\muσσ\sigma

28 distributions estimation mathematical-statistics maximum-likelihood truncation

3

经验似然的一些说明性应用是什么？

我听说过欧文的经验可能性，但是直到最近我才对它感兴趣，直到我在一篇感兴趣的论文中碰到了它（Mengersen等，2012）。在我的努力去理解它，我已经收集所观察到的数据的似然性被表示为L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x) ，其中∑ipi=1∑ipi=1\sum_i p_i = 1且pi>0pi>0p_i > 0。但是，我无法在将这种表示法与如何用于对观察结果进行推论的连接上进行精神上的飞跃。也许我太扎根于考虑模型的似然参数？无论如何，我一直在Google学术搜索中寻找一些采用经验可能性的论文，这些论文将有助于我将这个概念内化……无济于事。显然，有Art Owen的《Empirical Likelihood》一书，但Google图书遗漏了所有可口的东西，而且我在图书馆之间借阅的过程仍很缓慢。同时，有人可以请我指出清楚说明经验可能性的前提以及如何应用的论文吗？EL本身的说明性描述也将受到欢迎！

28 bayesian maximum-likelihood nonparametric likelihood empirical-likelihood

5

最大似然估计-为什么在很多情况下尽管有偏见仍使用它

最大似然估计通常导致有偏估计（例如，其对样本方差的估计因高斯分布而有偏）。那么，什么使它如此受欢迎？为什么要使用那么多？此外，有什么特别之处使其比其他方法更好？此外，我注意到对于高斯，MLE估计量的简单缩放使其无偏。为什么这种缩放不是标准程序？我的意思是-为什么在进行MLE计算之后，找不到必要的缩放比例以使估计量无偏的原因并不常见？标准做法似乎是对MLE估计的简单计算，当然，对于比例因子众所周知的高斯情况，当然除外。

25 normal-distribution maximum-likelihood method-of-moments

3

有偏最大似然估计量背后的直觉推理

我对有偏的最大似然（ML）估计量感到困惑。整个概念的数学知识对我来说很清楚，但我无法弄清其背后的直观原因。给定某个数据集具有来自分布的样本，而该样本集本身是我们要估计的参数的函数，则ML估计器会得出最有可能产生该数据集的参数值。我不能从以下角度直观地理解偏差ML估计器：参数的最可能值如何在偏向错误值的情况下预测参数的实际值？

25 maximum-likelihood bias

2

我什么时候不应该对MLE使用R的nlm函数？

我遇到了一些指南，建议我使用R的nlm进行最大似然估计。但是，它们中的任何一个（包括R的文档）都没有给出何时使用或不使用该功能的大量理论指导。据我所知，nlm只是沿牛顿方法进行梯度下降。是否有合理的时间使用这种方法的原则？有哪些替代方法？另外，对数组的大小是否有限制，等等。可以传递给nlm吗？

25 r maximum-likelihood

2

我们可以使用MLE来估计神经网络权重吗？

我刚刚开始研究统计数据和模型资料。目前，我的理解是我们使用MLE来估计模型的最佳参数。但是，当我尝试了解神经网络如何工作时，似乎它们通常使用另一种方法来估计参数。我们为什么不使用MLE或完全可以使用MLE？

23 maximum-likelihood neural-networks

4

是否始终有针对任何MLE问题的最大化器？

我想知道是否总是有一个最大化器来解决任何最大（对数）似然估计问题？换句话说，是否存在一些分布及其某些参数，而MLE问题没有最大化器？我的问题来自工程师的说法，即MLE中的成本函数（似然性或对数似然性，我不确定这是预期的）始终是凹形的，因此总是具有最大化值。谢谢并恭祝安康！

23 maximum-likelihood optimization

4

估计学生t分布的参数

学生t分布参数的最大似然估计是什么？它们是否以封闭形式存在？快速的Google搜索没有给我任何结果。今天，我对单变量情况很感兴趣，但是可能我将不得不将模型扩展到多个维度。编辑：我实际上对位置和比例参数最感兴趣。现在，我可以假设自由度参数是固定的，并且可能以后使用某种数字方案来找到最佳值。

23 estimation maximum-likelihood t-distribution

4

无偏最大似然估计器是否始终是最佳无偏估计器？

我知道对于常规问题，如果我们有最佳的常规无偏估计量，则它必须是最大似然估计量（MLE）。但是总的来说，如果我们有一个无偏的MLE，那它也是最好的无偏估计量吗（或者，只要它具有最小的方差，也许我应该称其为UMVUE）？

22 mathematical-statistics maximum-likelihood unbiased-estimator

2

如何推导二项式分布的似然函数以进行参数估计？

根据Miller和Freund的《工程师概率与统计》，第8版（第217-218页），对于二项分布（伯努利试验），最大化的似然函数为 L(p)=∏ni=1pxi(1−p)1−xiL(p)=∏i=1npxi(1−p)1−xiL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} 如何得出这个方程式？对于其他分布，泊松和高斯，对我来说似乎很清楚。 L(θ)=∏ni=1PDF or PMF of dist.L(θ)=∏i=1nPDF or PMF of dist.L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} 但是二项式的只是一点点不同。坦率地说，如何 nCx px(1−p)n−xnCx px(1−p)n−XnC_x~p^x(1-p)^{n-x} 成为 px一世（1 − p)1个−x一世pxi(1个-p）1个-X一世p^{x_i}(1-p)^{1-x_i} 在上述似然函数中？

22 estimation maximum-likelihood bernoulli-distribution point-estimation

1

在R中，给定优化器的输出为hessian矩阵，如何使用hessian矩阵计算参数置信区间？

给定opstim带有hessian矩阵的输出，如何使用hessian矩阵计算参数置信区间？ fit<-optim(..., hessian=T) hessian<-fit$hessian 我对最大似然分析的背景最感兴趣，但很想知道该方法是否可以扩展。

22 r maximum-likelihood

4

使用最大似然拟合多元正态模型时，如何确保协方差矩阵的性质？

假设我有以下模型 yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i 其中，是解释变量的向量，\ theta是非线性函数f和\ varepsilon_i \ sim N（0，\ Sigma）的参数，其中\ Sigma自然是K \ times K矩阵。yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffε一世〜ñ（0 ，Σ ）εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\Sigmaķ× KK×KK\times K 通常的目标是估算θθ\theta和ΣΣ\Sigma。明显的选择是最大似然法。此模型的对数似然性（假设我们有一个样本（y一世，X一世），我= 1 ，。。。，n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n）看起来像 l （θ ，Σ ）= − n2日志（2 π）− n2日志DET Σ - Σ我= 1ñ（y一世- ˚F（x一世，θ ））′Σ− 1（y- ˚F（x一世,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) 现在，这似乎很简单，指定了对数似然性，将其放入数据中，并使用某种算法进行非线性优化。问题是如何确保ΣΣ\Sigma为正定。例如，optim在R中使用R（或任何其他非线性优化算法）将无法保证ΣΣ\Sigma是正定的。那么问题是如何确保ΣΣ\Sigma保持正定值？我看到两种可能的解决方案：重新参数化ΣΣ\Sigma为 RR′RR′RR'，其中RRR是上三角或对称矩阵。然后ΣΣ\Sigma将始终是正定的，并且RRR可以不受约束。使用配置文件可能性。推导θ^(Σ)θ^(Σ)\hat\theta(\Sigma)和\ hat {\ Sigma}（\ theta）的公式Σ^(θ)Σ^(θ)\hat{\Sigma}(\theta)。从一些\ theta_0开始θ0θ0\theta_0并迭代Σ^Ĵ= …

22 maximum-likelihood optimization covariance

Questions tagged «maximum-likelihood»