Questions tagged «maximum-likelihood»

一种通过选择优化观察给定样本概率的参数值来估算统计模型参数的方法。


3
什么是“限制最大可能性”,什么时候应使用?
我已阅读的抽象本文认为: “通过修改Patterson和Thompson的变换对Hartley aud Rao的最大似然(ML)程序进行了修改,该变换将似然渲染正态性划分为两个部分,其中一个没有固定影响。最大化这部分会产生所谓的受限最大似然(REML)估算器。” 我还在本文摘要中阅读了REML: “考虑到由于估计固定效应而导致的自由度损失。” 遗憾的是,我无法访问这些论文的全文(如果这样做的话,可能会无法理解)。 此外,REML与ML有何优势?在拟合混合效果模型时,在什么情况下REML优于ML(反之亦然)?请提供适合具有高中(或刚刚毕业)数学背景的人的解释!

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

7
在小样本中矩方法可以击败最大似然性的示例?
最大似然估计器(MLE)渐近有效。我们看到实际的结果是,即使在小样本量下,它们通常也比矩量法(MoM)估计(当它们不同时)要好 在这里,“优于”是指在两者均无偏的情况下通常具有较小的方差,并且更一般地,通常具有较小的均方误差(MSE)。 问题出现了,但是: 在小样本中,MoM是否能击败MLE(例如MSE)? (在这种情况下,不是奇数/简并的情况-即考虑到ML存在的条件/渐近有效保持) 接下来的问题将是“小可以多大?” -也就是说,如果有示例,是否仍然有一些示例在相对较大的样本量(甚至所有有限的样本量)下仍然有效? [我可以找到一个有偏估计器的示例,它可以在有限样本中击败ML,但它不是MoM。] 追溯性地添加注释:我在这里的重点主要是单变量情况(这实际上是我潜在的好奇心来自何处)。我不想排除多变量情况,但我也不想特别涉入James-Stein估计的扩展讨论。


9
高级统计书籍推荐
该站点上有多个线程可提供有关入门统计和机器学习的书籍建议,但我正在寻找有关高级统计的文章,其中包括按优先级排列的顺序:最大似然,广义线性模型,主成分分析,非线性模型。我已经尝试过AC Davison的统计模型,但是坦率地说,我不得不在2章之后将其放下。本书内容涵盖了百科全书和数学知识,但是作为一名从业者,我喜欢通过首先了解直觉来接近学科,然后再深入研究数学背景。 这些是一些我认为具有教学价值的文章。我想为我提到的更高级的科目找到同等的科目。 统计,D。Freedman,R。Pisani,R。Purves。 预测:方法与应用,R。Hyndman等。 多元回归与超越,TZ基思 Rand R. Wilcox,《应用当代统计技术》 R语言中的统计学习及其应用简介(已发布PDF版本),Gareth James,Daniela Witten,Trevor Hastie和Robert Tibshirani 统计学习的要素:数据挖掘,推理和预测。-(PDF发布版本),哈斯提,蒂布希拉尼和弗里德曼(2009)

2
有关Fisher信息矩阵以及与Hessian和标准误差的关系的基本问题
好的,这是一个非常基本的问题,但是我有点困惑。我在论文中写道: 通过计算(观察到的)Fisher Information矩阵对角元素的平方根的倒数,可以找到标准误差: 由于R中的优化命令最小化-日志大号的(观察到的)费舍尔信息矩阵可以通过计算的Hessian的逆找到: 我(μ,σ2)=^ h-1sμ^,σ^2= 1我( μ^,σ^2)------√sμ^,σ^2=1个一世(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*}− 日志大号-日志⁡大号-\log\mathcal{L}我( μ^,σ^2)= 高− 1一世(μ^,σ^2)=H-1个\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} 我的主要问题:这是我所说的正确吗? 我有些困惑,因为在第7页的此资源中它说: 信息矩阵是黑森州矩阵的期望值的负数 (因此,没有黑森州的反面。) 而在第7页(脚注5)的此来源中指出: 所观察到的Fisher信息等于。(- 高)− 1(-H)-1个(-H)^{-1} (所以这是相反的。) 我知道减号,何时使用减号,何时不使用,但是为什么取反号与否有区别?


4
如果负可能性等于可能性的最大值,为什么我们要使其最小呢?
这个问题困扰了我很长时间。我了解使用“对数”来最大程度地提高可能性,所以我不问“对数”。 我的问题是,由于最大化对数可能性等于最小化“负对数可能性”(NLL),为什么我们要发明这种NLL?为什么我们不一直使用“阳性可能性”?NLL在什么情况下受到青睐? 我在这里找到了一些解释。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/,它似乎在深度上解释了明显的等效性,但并不能解决我的困惑。 任何解释将不胜感激。

2
协方差矩阵的逆对数据说什么?(直觉上)
我对的性质感到好奇。任何人都可以说出一些直觉的信息“对数据有何看法?”Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} 编辑: 感谢您的回复 在学习了一些很棒的课程之后,我想补充一点: 它是信息的度量,即是沿方向的信息量。xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx 对偶性:由于是正定的,也是正定的,因此它们是点积范数,更确切地说,它们是彼此的偶范数,因此我们可以针对正则化最小二乘问题导出Fenchel对偶,并最大化wrt对偶问题。我们可以根据它们的条件选择它们之一。ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1} 希尔伯特空间:和列(和行)跨越相同的空间。因此,使用或表示之间没有任何优势(当这些矩阵之一处于不适状态时)Σ−1Σ−1\Sigma^{-1}ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1}ΣΣ\Sigma 贝叶斯统计:范数在贝叶斯统计中起重要作用。也就是说,它确定了我们之前有多少信息,例如,当先验密度的协方差像 我们将获得非信息性信息(或者可能是Jeffreys先前的信息)Σ−1Σ−1\Sigma^{-1}∥Σ−1∥→0‖Σ−1‖→0\|\Sigma^{-1}\|\rightarrow 0 惯常统计:使用Cramér-Rao界线,它与Fisher信息密切相关。实际上,费舍尔信息矩阵(对数似然梯度自身的外积)是Cramér–Rao约束的,即Σ−1⪯FΣ−1⪯F\Sigma^{-1}\preceq \mathcal{F}(正半定锥,即浓度)椭圆形)。因此,当Σ−1=FΣ−1=F\Sigma^{-1}=\mathcal{F},最大似然估计器是有效的,即,数据中存在最大信息,因此频频机制是最佳的。用简单的话来说,对于某些似然函数(请注意,似然函数的形式完全取决于可能生成数据的概率模型,即生成模型),最大似然是有效且一致的估计器,其规则类似于老板。(对不起,杀了它)

2
为什么斯坦因悖论只适用于尺寸直觉
Stein的示例显示,如果均值且方差为则正态分布变量的最大似然估计是不允许的(在平方损失函数下)iff。有关精巧的证明,请参见Bradley Effron撰写的《大规模推理:估计,测试和预测的经验贝叶斯方法》的第一章。nnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 一开始这对我来说是非常令人惊讶的,但是背后有一些直觉,为什么人们可能会期望标准估计值是不可接受的(最明显的是,如果,那么,如Stein的原始论文所述(链接到下面)。x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n 我的问题是:缺少\ mathbb {R} ^ 2的nnn维空间(对于n≥3n≥3n\ge 3)具有什么特性,这有助于Stein的示例?可能的答案可能是关于n球的曲率,或者是完全不同的东西。R2R2\mathbb{R}^2nnn 换句话说,为什么在\ mathbb {R} ^ 2中允许MLE R2R2\mathbb{R}^2? 编辑1:响应@mpiktas对1.30之后的1.31的关注: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_i所以Eμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).因此,我们有: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. 编辑2:在本文中,斯坦因证明了MLE对于N = 2是可接受的N=2N=2N=2。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
所有模型都没有用吗?有没有确切的模型可能有用?
这个问题在我心中困扰了一个多月。2015年2月的《Amstat新闻》收录了伯克利教授Mark van der Laan 的一篇文章,该文章谴责人们使用不精确的模型。他指出,通过使用模型,统计才是一门艺术而不是一门科学。根据他的说法,人们总是可以使用“精确模型”,而我们这样做的失败会导致“缺乏严格……我担心我们在数据科学中的代表地位将被边缘化”。 我同意我们有被边缘化的危险,但是威胁通常来自那些声称(听起来很像范德兰教授的人)他们没有使用某种近似方法,但实际上他们的方法却少得多的人严格的数据模型比经过仔细应用的统计模型还要严格-甚至是错误的统计模型。 我认为可以说范德兰教授对那些重复Box经常使用的话的人很鄙视:“所有模型都是错误的,但有些模型是有用的。” 基本上,正如我读到的那样,他说所有模型都是错误的,并且都是无用的。现在,我该拒绝伯克利大学教授的观点吗?另一方面,他是谁如此轻描淡写地拒绝了我们领域中真正的巨头之一的观点? van der Laan博士在详细阐述时指出:“声明所有模型都是错误的,完全是胡说八道……例如,没有任何假设的统计模型始终是正确的。” 他继续说:“但是通常,我们可以做得更好:我们可能知道数据是独立的相同实验的结果。” 除了非常狭窄的随机采样或受控实验设置外,我看不出有人会知道这一点。作者指出他在有针对性的最大似然学习和有针对性的基于最小损失的学习中的工作,这些工作“将最先进的技术集成到了机器学习/数据自适应估计中,所有因果推理,审查数据,效率和经验方面的令人难以置信的进步过程理论,同时仍然提供正式的统计推断。”ññn 我也同意一些说法。他说,我们需要认真对待我们的工作,我们作为统计学家的角色以及我们的科学合作者。听见!当人们例行使用逻辑回归模型或其他任何方法而没有仔细考虑是否足以回答科学问题或是否适合数据时,这无疑是个坏消息。我确实在该论坛上发布的问题中看到了很多此类滥用行为。但是我也看到不精确模型(甚至参数模型)的有效和有价值的使用。与他所说的相反,我很少被“另一种逻辑回归模型闷死”。我猜这就是我的天真。 所以这是我的问题: 使用完全不做任何假设的模型,可以做出哪些有用的统计推断? 是否存在使用目标最大可能性使用重要的真实数据的案例研究?这些方法是否被广泛使用和接受? 所有不精确的模型真的没有用吗? 除了琐碎的情况以外,是否可能知道您拥有确切的模型? 如果这太基于观点,因此太离题了,该在哪里讨论?因为范德兰博士的文章确实需要进行一些讨论。


1
为什么glmer无法达到最大可能性(已通过应用进一步的通用优化方法进行了验证)?
数值推导MLE第GLMM是困难的,在实践中,我知道,我们不应该用蛮力优化(例如,使用optim一个简单的方法)。但是出于我自己的教育目的,我想尝试一下以确保正确理解该模型(请参见下面的代码)。我发现我总是从中得到不一致的结果glmer()。 特别是,即使我使用MLE glmer作为初始值,根据我写的似然函数(negloglik),它们也不是MLE(opt1$value小于opt2)。我认为两个潜在的原因是: negloglik 写得不好,以至于其中有太多的数字误差,并且 型号规格错误。对于模型规范,预期模型为: 其中 ˚F是二项式PMF和克是一个正常的PDF文件。我试图估计 a, b和 s。我特别想知道模型规格是否错误,正确的规格是什么。L=∏i=1n(∫∞−∞f(yi|N,a,b,ri)g(ri|s)dri)L=∏i=1n(∫−∞∞f(yi|N,a,b,ri)g(ri|s)dri)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation}fffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 # random effect (intercept) N <- 8 x <- rep(2:6, each=20) n <- length(x) id …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.