Questions tagged «method-of-moments»

一种参数估计方法,通过将样本矩和总体矩相等,然后求解未知参数的方程式。

7
在小样本中矩方法可以击败最大似然性的示例?
最大似然估计器(MLE)渐近有效。我们看到实际的结果是,即使在小样本量下,它们通常也比矩量法(MoM)估计(当它们不同时)要好 在这里,“优于”是指在两者均无偏的情况下通常具有较小的方差,并且更一般地,通常具有较小的均方误差(MSE)。 问题出现了,但是: 在小样本中,MoM是否能击败MLE(例如MSE)? (在这种情况下,不是奇数/简并的情况-即考虑到ML存在的条件/渐近有效保持) 接下来的问题将是“小可以多大?” -也就是说,如果有示例,是否仍然有一些示例在相对较大的样本量(甚至所有有限的样本量)下仍然有效? [我可以找到一个有偏估计器的示例,它可以在有限样本中击败ML,但它不是MoM。] 追溯性地添加注释:我在这里的重点主要是单变量情况(这实际上是我潜在的好奇心来自何处)。我不想排除多变量情况,但我也不想特别涉入James-Stein估计的扩展讨论。

5
最大似然估计-为什么在很多情况下尽管有偏见仍使用它
最大似然估计通常导致有偏估计(例如,其对样本方差的估计因高斯分布而有偏)。 那么,什么使它如此受欢迎?为什么要使用那么多?此外,有什么特别之处使其比其他方法更好? 此外,我注意到对于高斯,MLE估计量的简单缩放使其无偏。为什么这种缩放不是标准程序?我的意思是-为什么在进行MLE计算之后,找不到必要的缩放比例以使估计量无偏的原因并不常见?标准做法似乎是对MLE估计的简单计算,当然,对于比例因子众所周知的高斯情况,当然除外。


4
到底是什么时刻?它们是如何衍生的?
通常,我们通过“使总体矩等于其样本对等体”来介绍矩估计器的方法,直到我们估算出总体的所有参数为止。这样,在正态分布的情况下,我们只需要第一刻和第二刻,因为它们可以完全描述这种分布。 Ë(X)= μ⟹∑ñ我= 1X一世/ n= X¯Ë(X)=μ⟹∑一世=1个ñX一世/ñ=X¯E(X) = \mu \implies \sum_{i=1}^n X_i/n = \bar{X} Ë(X2)= μ2+ σ2⟹∑ñ我= 1X2一世/ nË(X2)=μ2+σ2⟹∑一世=1个ñX一世2/ñE(X^2) = \mu^2 + \sigma^2 \implies \sum_{i=1}^n X_i^2/n 从理论上讲,我们最多可以将额外时刻计算为:ññn Ë(X[R)⟹∑ñ我= 1X[R一世/ nË(X[R)⟹∑一世=1个ñX一世[R/ñE(X^r) \implies \sum_{i=1}^nX_i^r /n 我该如何为真正的时刻建立直觉?我知道它们作为一个概念存在于物理学和数学中,但是我发现它们都不直接适用,特别是因为我不知道如何将抽象概念从质量概念扩展到数据点。该术语似乎在统计学中以特定方式使用,这与其他学科中的用法不同。 我的数据的什么特征决定了总共有多少()个力矩?[R[Rr

1
最大似然和矩量法何时会产生相同的估计量?
前几天有人问我这个问题,以前从未考虑过。 我的直觉来自每个估算器的优势。最大似然最好是在我们对数据生成过程充满信心时进行,因为与矩量方法不同,它最大程度地利用了整个分布的知识。由于MoM估算器仅使用时刻中包含的信息,因此当我们尝试估算的参数的足够统计量恰好是数据时刻时,这两种方法似乎应产生相同的估算。 (0 ,θ )(0,θ)(0,\theta)θθ\theta最大(X1个,⋯ ,Xñ)最高(X1个,⋯,Xñ)\max(X_1,\cdots,X_N) 我以为这可能是指数族的怪癖,但是对于已知均值的拉普拉斯来说,足够的统计量是且方差的MLE和MoM估计量不相等。1个ñ∑ | X一世|1个ñ∑|X一世|\frac{1}{n} \sum |X_i| 到目前为止,我一般无法显示任何结果。有人知道一般情况吗?甚至是一个反例也可以帮助我改善直觉。

1
力矩产生功能与特征功能之间的联系
我试图理解力矩产生函数和特征函数之间的联系。矩生成函数定义为: MX(t)=E(exp(tX))=1+tE(X)1+t2E(X2)2!+⋯+tnE(Xn)n!MX(t)=E(exp⁡(tX))=1+tE(X)1+t2E(X2)2!+⋯+tnE(Xn)n! M_X(t) = E(\exp(tX)) = 1 + \frac{t E(X)}{1} + \frac{t^2 E(X^2)}{2!} + \dots + \frac{t^n E(X^n)}{n!} 使用,我可以找到随机变量分布的所有时刻X。exp(tX)=∑∞0(t)n⋅Xnn!exp⁡(tX)=∑0∞(t)n⋅Xnn!\exp(tX) = \sum_0^{\infty} \frac{(t)^n \cdot X^n}{n!} 特征函数定义为: φX(t)=E(exp(itX))=1+itE(X)1−t2E(X2)2!+…+(it)nE(Xn)n!φX(t)=E(exp⁡(itX))=1+itE(X)1−t2E(X2)2!+…+(it)nE(Xn)n! \varphi_X(t) = E(\exp(itX)) = 1 + \frac{it E(X)}{1} - \frac{t^2 E(X^2)}{2!} + \ldots + \frac{(it)^n E(X^n)}{n!} 我不完全了解为我带来的虚数信息。我看到,因此特征函数中不只有,但是为什么我们需要在特征函数中减去矩?数学思想是什么?iiii2=−1i2=−1i^2 = -1+++

1
方差分析是否依靠矩量法而不是最大似然法?
我在不同地方看到提到ANOVA使用矩量法进行估算。 我对这个说法感到困惑,因为即使我不熟悉矩量法,但我的理解是,它不同于最大似然法,并且不等同于最大似然法。另一方面,方差分析可以看作是具有类别预测变量的线性回归,回归参数的OLS估计是最大可能性。 所以: 什么使方差分析程序符合力矩方法? 鉴于ANOVA等同于带有分类预测变量的OLS,这不是最大可能性吗? 如果这两种方法在常规ANOVA的特殊情况下以某种方式等效,那么当差异变得重要时,是否存在某些特定的ANOVA情况?不平衡的设计?重复措施?混合(学科间+学科内)设计?


3
什么是矩量法,它与MLE有何不同?
通常,矩量方法似乎只是将观测到的样本均值或方差与理论矩量相匹配以获得参数估计。我了解到,这通常与指数家庭的MLE相同。 但是,即使找到似然函数的模式可能比较棘手,也很难找到一个清晰的矩量方法定义和一个清晰的讨论来解释为什么MLE通常受到青睐。 这个问题MLE比Moment方法更有效吗?哈佛大学的唐纳德·鲁宾教授引述唐纳德·鲁宾的话说,自40年代以来,每个人都知道MLE胜过MoM,但我有兴趣了解其历史或原因。

2
我怎么知道选择哪种参数估计方法?
那里有很多用于参数估计的方法。MLE,UMVUE,MoM,决策理论等似乎都具有合理的理由说明为什么它们可用于参数估计。是任何一种方法都比其他方法更好,还是仅取决于我们如何定义“最佳拟合”估计量(类似于最小化正交误差如何与普通最小二乘法产生不同的估计值)?


1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.