Questions tagged «maximum-likelihood»

一种通过选择优化观察给定样本概率的参数值来估算统计模型参数的方法。

6
可能性-为什么要成倍增长?
我正在研究最大似然估计,并且我读到似然函数是每个变量的概率的乘积。为什么是产品?为什么不算总和?我一直在尝试在Google上进行搜索,但找不到任何有意义的答案。 https://zh.wikipedia.org/wiki/最大可能性

3
为什么是最大可能性而不是预期可能性?
为什么获得参数的最大似然估计如此常见,但实际上您从未听说过预期似然参数估计(即,基于期望值而不是似然函数的模式)?这主要是出于历史原因,还是出于实质性的技术或理论原因? 使用预期似然估计而不是最大似然估计是否有明显的优势和/或劣势? 有没有在预期的似然估计一些地区的常规使用?

2
最大似然估计的标准误差是什么意思?
我是一名数学家,自学统计数据,尤其是在语言方面苦苦挣扎。 在我正在使用的书中,存在以下问题: 随机变量为为。(当然,你可以根据对这个问题的缘故一个参数采取任何分布)。然后五个值的样品,,,,中给出。XXXPareto(α,60)Pareto(α,60)\text{Pareto}(\alpha,60)α>0α>0\alpha>0141414212121666323232222 第一部分:“使用最大似然的方法中,发现一个估计的基于[样品]”。这没问题。答案是。α^α^\hat{\alpha} α听,说:4.6931αα\alphaα^≈4.6931α^≈4.6931\hat{\alpha}\approx 4.6931 但是然后:“给出的标准误差的估计值。”α^α^\hat{\alpha} 这是什么意思?由于只是一个固定的实数,因此我不知道它可能以什么方式出现标准错误。我是否要确定的标准偏差?α^α^\hat{\alpha}Pareto(α^,60)Pareto(α^,60)\text{Pareto}(\hat{\alpha},60) 如果您认为问题不清楚,那么此信息对我也有帮助。


4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
最大似然估计-多元高斯
语境 多元高斯在机器学习中经常出现,并且以下结果在许多没有衍生的机器学习书籍和课程中使用。 给定以m × p尺寸 的矩阵形式给出的数据,如果我们假设数据遵循 参数均值为μ(p × 1)和协方差矩阵Σ(p × p)的p变量高斯分布,则最大似然估计为由:XX\mathbf{X} m × pm×p m \times ppppμμ\mup × 1p×1p \times 1 ΣΣ\Sigmap × pp×pp \times p μ^= 1米∑米我= 1X(我)= x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^= 1米∑米我= 1(x(我)- μ^)(x(我)- μ^)ŤΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - …

2
为什么最大似然估计被认为是一种频繁使用的技术
对我来说,频繁统计数据就是尝试做出对所有可能样本均有利的决策的代名词。即,常客决策规则应始终尝试使常客风险最小化,这取决于损失函数和自然的真实状态:δδ\deltaLLLθ0θ0\theta_0 Rfreq=Eθ0(L(θ0,δ(Y))Rfreq=Eθ0(L(θ0,δ(Y))R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y)) 最大似然估计与频繁发生者风险如何联系?鉴于这是常客使用的最常用的点估计技术,因此必须存在某种联系。据我所知,最大似然估计比常客风险的概念还早,但是仍然必须存在某种联系,为什么还有很多人会认为这是常客风险的技术? 我发现的最接近的联系是 “对于满足弱规律性条件的参数模型,最大似然估计量约为minimax” Wassermann,2006,p。201 “ 公认的答案或者将最大似然点估计与较强的常客风险联系起来,或者提供常客推断的替代形式定义,表明MLE是常客推断技术。


1
轮廓可能性的缺点是什么?
考虑参数的向量,其中是目标参数,而是令人讨厌的参数。θ 1 θ 2(θ1个,θ2)(θ1,θ2)(\theta_1, \theta_2)θ1个θ1\theta_1θ2θ2\theta_2 如果是根据数据构造的似然度,则的轮廓似然度定义为其中是的MLE,固定值为。X θ 1个大号P(θ 1 ; X )= 大号(θ 1,θ 2(θ 1); X )θ 2(θ 1)θ 2 θ 1大号(θ1个,θ2; X )L(θ1,θ2;x)L(\theta_1, \theta_2 ; x)Xxxθ1个θ1\theta_1大号P(θ1个; x )= L (θ1个,θ^2(θ1个); X )LP(θ1;x)=L(θ1,θ^2(θ1);x)L_P(\theta_1 ; x) = L(\theta_1, \hat{\theta}_2(\theta_1) ; x)θ^2(θ1个)θ^2(θ1) \hat{\theta}_2(\theta_1)θ2θ2\theta_2θ1个θ1\theta_1 ∙∙\bullet关于的轮廓似然最大化会导致与相同的估计,而后者是同时通过关于和的似然最大化而获得的。θ 1 θ 1 θ 2θ1个θ1\theta_1θ^1个θ^1\hat{\theta}_1θ1个θ1\theta_1θ2θ2\theta_2 ∙∙\bullet我认为的标准偏差也可以根据轮廓似然的二阶导数来估算。θ^1个θ^1\hat{\theta}_1 ∙∙\bullet的似然统计量可以用轮廓似然表示:。H0:θ1个= …

6
机器学习用于估计参数的“基本”思想是什么?
用于估计参数的统计学的“基本”思想是最大可能性。我想知道机器学习中对应的想法是什么。 Qn 1.可以公平地说,机器学习中用于估计参数的“基本”思想是:“损失函数” [注:给我的印象是机器学习算法经常优化损失函数,因此会产生上述问题。] 问题2:是否有任何文献试图弥合统计学与机器学习之间的鸿沟? [注:也许,通过将损失函数与最大似然联系起来。(例如,OLS等于正态分布错误的最大可能性等)

3
R中丢失数据的完整信息最大可能性
上下文:具有某些缺失数据的层次回归。 问题:如何使用完整信息最大似然(FIML)估计来解决R中的丢失数据?有没有推荐的软件包,典型的步骤是什么?在线资源和示例也将非常有帮助。 PS:我是一名社会科学家,最近刚开始使用R。可以选择多重插补,但是我非常喜欢Mplus之类的程序如何使用FIML优雅地处理丢失的数据。不幸的是,Mplus目前似乎没有在层次回归的情况下比较模型(请告诉我您是否知道这样做的方法!)。我想知道R中是否有类似的东西?非常感谢!

5
使用lmer进行预测
您好,我有两个问题听起来像是我从未使用过的多级/混合模型的自然候选者。我希望尝试做一个更简单的介绍,如下所示:数据看起来像表单的许多行 x y innergroup outergroup 其中x是要对其进行回归的数值协变量(另一个数值变量),每个y属于一个内部组,每个内部组嵌套在一个外部组中(即,给定内部组中的所有y都属于同一个外部组) 。不幸的是,内部群有很多级别(成千上万),每个级别对y的观察都相对较少,因此我认为这种模型可能是合适的。我的问题是 如何编写这种多级公式? 一旦lmer拟合模型,如何从中进行预测?我已经找到了一些更简单的玩具示例,但是没有找到预报()函数。与这种技术的预测相比,大多数人似乎对推理更感兴趣。我有几百万行,所以计算可能是个问题,但是我总是可以适当地减少它。 我将不需要一段时间,但是我不妨开始考虑并尝试使用它。我有和以前相似的数据,但没有x,并且y现在是形式的二项式变量。y也表现出很多过度分散,即使在内部群体中也是如此。n中的大多数不超过2或3(或更小),因此为了得出每个y i的成功率的估算值,我一直在使用β-二项式收缩率估算器(α + k i)/(α + β + n i),在哪里(n,n−k)(n,n−k)(n,n-k)nnnyiyiy_i(α+ki)/(α+β+ni)(α+ki)/(α+β+ni)(\alpha+k_i)/(\alpha+\beta+n_i)通过MLE对每个内部组分别估计 α和 β。这已经足够了,但是数据稀疏仍然困扰着我,所以我想使用所有可用的数据。从一个角度看,这个问题比较容易,因为没有协变量,但是从另一个角度看,二项式性质使它变得更加困难。有人有高(或低!)级指导吗?αα\alphaββ\beta

2
REML或ML比较具有不同固定效果但具有相同随机效果的两个混合效果模型?
背景: 注意:我的数据集和R代码包含在文本下方 我希望使用AIC比较使用R中的lme4包生成的两个混合效果模型。每个模型都有一个固定效果和一个随机效果。模型之间的固定效果不同,但模型之间的随机效果保持不变。我发现如果我使用REML = T,则model2的AIC分数较低,但是如果我使用REML = F,则model1的AIC分数较低。 支持使用ML: Zuur等。(2009年;第122页)建议“要比较具有嵌套固定效应(但具有相同随机结构)的模型,必须使用ML估计而不是REML。” 这向我表明我应该使用ML,因为两个模型的随机效果都相同,但是固定效果却不同。[Zuur等。2009。R.Springer的《混合效应模型和生态学扩展》。 支持使用REML: 但是,我注意到当我使用ML时,两个模型之间与随机效应相关的剩余方差有所不同(模型1 = 136.3;模型2 = 112.9),但是当我使用REML时,模型之间是相同的(模型1 =模型2 = 151.5)。这对我来说意味着我应该改为使用REML,以便具有相同随机变量的模型之间的随机残差保持相同。 题: 在固定效应改变而随机效应保持不变的模型比较中,使用REML比ML更有意义吗?如果不是,您能解释为什么还是将我指向其他能解释更多内容的文献吗? # Model2 "wins" if REML=T: REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T) REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T) AIC(REMLmodel1,REMLmodel2) summary(REMLmodel1) summary(REMLmodel2) # Model1 "wins" …

1
MLE与拟合概率分布中的最小二乘
根据我读过的几篇论文,书籍和文章,给我的印象是,将概率分布拟合到一组数据上的推荐方法是使用最大似然估计(MLE)。但是,作为物理学家,一种更直观的方法是仅使用最小二乘法将模型的pdf与数据的经验pdf拟合。那么为什么MLE在拟合概率分布上比最小二乘更好?有人可以指出我要回答该问题的科学论文/书吗? 我的直觉是因为MLE没有假定噪声模型,而经验pdf中的“噪声”是异方差的,不是正常的。

1
最大似然和矩量法何时会产生相同的估计量?
前几天有人问我这个问题,以前从未考虑过。 我的直觉来自每个估算器的优势。最大似然最好是在我们对数据生成过程充满信心时进行,因为与矩量方法不同,它最大程度地利用了整个分布的知识。由于MoM估算器仅使用时刻中包含的信息,因此当我们尝试估算的参数的足够统计量恰好是数据时刻时,这两种方法似乎应产生相同的估算。 (0 ,θ )(0,θ)(0,\theta)θθ\theta最大(X1个,⋯ ,Xñ)最高(X1个,⋯,Xñ)\max(X_1,\cdots,X_N) 我以为这可能是指数族的怪癖,但是对于已知均值的拉普拉斯来说,足够的统计量是且方差的MLE和MoM估计量不相等。1个ñ∑ | X一世|1个ñ∑|X一世|\frac{1}{n} \sum |X_i| 到目前为止,我一般无法显示任何结果。有人知道一般情况吗?甚至是一个反例也可以帮助我改善直觉。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.