Questions tagged «mse»

MSE代表均方误差。它是对估计或预测的性能的度量,等于观察值与估计/预测值之间的均方差。

7
在小样本中矩方法可以击败最大似然性的示例?
最大似然估计器(MLE)渐近有效。我们看到实际的结果是,即使在小样本量下,它们通常也比矩量法(MoM)估计(当它们不同时)要好 在这里,“优于”是指在两者均无偏的情况下通常具有较小的方差,并且更一般地,通常具有较小的均方误差(MSE)。 问题出现了,但是: 在小样本中,MoM是否能击败MLE(例如MSE)? (在这种情况下,不是奇数/简并的情况-即考虑到ML存在的条件/渐近有效保持) 接下来的问题将是“小可以多大?” -也就是说,如果有示例,是否仍然有一些示例在相对较大的样本量(甚至所有有限的样本量)下仍然有效? [我可以找到一个有偏估计器的示例,它可以在有限样本中击败ML,但它不是MoM。] 追溯性地添加注释:我在这里的重点主要是单变量情况(这实际上是我潜在的好奇心来自何处)。我不想排除多变量情况,但我也不想特别涉入James-Stein估计的扩展讨论。

1
如何解释错误措施?
我正在Weka中为某个数据集运行分类,并且我注意到,如果我试图预测标称值,则输出将具体显示正确和错误地预测的值。但是,现在我为数字属性运行它,输出为: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 我该怎么解释?我已经尝试过搜索每个概念,但由于统计数据完全不在我的专业领域,因此我不太了解。就统计而言,我将非常感谢ELI5类型的答案。

3
均方误差和残差平方和
看一下Wikipedia的定义: 均方误差(MSE) 残差平方和(RSS) 在我看来 MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 其中是样本数,是我们对的估计。NNNfifif_iyiyiy_i 但是,没有维基百科文章提到这种关系。为什么?我想念什么吗?
31 residuals  mse 

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
MSE分解为方差和偏差平方
为了显示MSE可以分解为方差加上偏见的平方,维基百科中的证明有一个步骤,如图中突出显示。这是如何运作的?从第三步到第四步如何将期望推向产品?如果这两个术语是独立的,则不应将期望应用于这两个术语吗?如果不是,则此步骤有效吗?

1
自动编码器的损耗功能
我正在尝试一些自动编码器,并使用tensorflow创建了一个试图重建MNIST数据集的模型。 我的网络非常简单:X,e1,e2,d1,Y,其中e1和e2是编码层,d2和Y是解码层(Y是重构的输出)。 X具有784个单位,e1具有100个单位,e2具有50个单位,d1具有100个单位,Y具有784个单位。 我将S型曲线用作层e1,e2,d1和Y的激活函数。输入在[0,1]中,因此应该是输出。 好吧,我尝试使用交叉熵作为损失函数,但输出始终是斑点,并且我注意到从X到e1的权重始终会收敛到零值矩阵。 另一方面,将均方误差用作损失函数,会产生不错的结果,我现在可以重构输入。 为什么呢?我以为我可以将这些值解释为概率,因此可以使用交叉熵,但是显然我做错了。

2
了解偏差方差折衷推导
我正在阅读《统计学习的要素》一书中的偏方差权衡一章,并对第29页的公式感到怀疑。让数据来自模型,使得Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilon,其中ϵϵ\epsilon是具有期望值ε = ë [ ε ] = 0和方差。让该模型的误差的期望值是 其中是预测ϵ^=E[ϵ]=0ϵ^=E[ϵ]=0\hat{\epsilon} = E[\epsilon]=0E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(ϵ−ϵ^)2]=E[ϵ2]=σ2E[(\epsilon - \hat\epsilon)^2]=E[\epsilon^2]=\sigma^2E[(Y−fk(x))2]E[(Y−fk(x))2] E[(Y-f_k(x))^2] fk(x)fk(x)f_k(x)xxx我们的学习者。根据这本书,误差为 E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)).E[(Y−fk(x))2]=σ2+Bias(fk)2+Var(fk(x)). E[(Y-f_k(x))^2]=\sigma^2+Bias(f_k)^2+Var(f_k(x)). 我的问题是为什么偏项不是0?开发错误的公式,我看到 E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2E[(Y−fk(x))2]=E[(f(x)+ϵ−fk(x))2]=E[(f(x)−fk(x))2]+2E[(f(x)−fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)−fk(x))ϵ]+σ2 E[(Y-f_k(x))^2]=\\ E[(f(x)+\epsilon-f_k(x))^2]=\\ E[(f(x)-f_k(x))^2]+2E[(f(x)-f_k(x))\epsilon]+E[\epsilon^2]=\\ Var(f_k(x))+2E[(f(x)-f_k(x))\epsilon]+\sigma^2 因为是一个独立的随机数ϵϵ\epsilon2E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)−fk(x))ϵ]=2E[(f(x)−fk(x))]E[ϵ]=02E[(f(x)-f_k(x))\epsilon]=2E[(f(x)-f_k(x))]E[\epsilon]=0 我哪里错了?

3
为什么要使用某种预测误差度量(例如MAD),而不是另一种度量度量(例如MSE)?
MAD =平均绝对偏差MSE =均方误差 我已经从各个地方看到了建议,尽管使用了MSE,但仍存在一些不良质量(例如http://www.stat.nus.edu.sg/~staxyc/T12.pdf,其在第8页上指出:“人们普遍认为MAD是比MSE更好的标准。但是,从数学上讲,MSE比MAD更方便。“) 除此之外,还有什么呢?是否有一篇论文彻底分析了各种测量预测误差的方法是否合适的情况?我的Google搜索未显示任何内容。 在/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde中询问了与此类似的问题,并要求用户张贴在stats.stackexchange.com上,但我认为他们从未这样做过。
15 forecasting  error  mse  mae 

4
均方误差用于评估一个估算器相对于另一个估算器的相对优势吗?
假设我们有两个参数估计量和。为了确定哪个估算器“更好”,我们看一下MSE(均方误差)吗?换句话说,我们看,其中是估计量的偏差,而是估计量的方差?哪个拥有更高的MSE才是更差的估算器?α 2 X 中号小号ë = β 2 + σ 2 β σ 2α1个α1\alpha_1α2α2\alpha_2Xxx中号小号Ë= β2+ σ2MSE=β2+σ2MSE = \beta^2+ \sigma^2ββ\betaσ2σ2\sigma^2
13 estimation  mse 

2
高斯-马尔可夫定理:BLUE和OLS
我正在阅读Wikipedia上的Guass-Markov定理,并且希望有人可以帮助我确定该定理的要点。 我们假设矩阵形式的线性模型由下式给出: 并且我们正在寻找BLUE,。y=Xβ+ηy=Xβ+η y = X\beta +\eta βˆβ^ \widehat\beta 按照此,我会标注 “残余”和 “错误”。(即与高斯-马尔可夫页面上用法相反)。η=y−Xβη=y−Xβ\eta = y - X\betaε=βˆ−βε=β^−β\varepsilon = \widehat\beta - \beta 可以将OLS(普通最小二乘)估计器导出为。||residual||22=||η||22||residual||22=||η||22||\text{residual}||_2^2 = ||\eta||_2^2 现在,让表示期望运算符。据我了解,高斯-马尔可夫定理告诉我们的是,如果且,则argmin线性,无偏估计量由与OLS估算器。EE\mathbb{E}E(η)=0E(η)=0\mathbb{E}(\eta) = 0Var(η)=σ2IVar(η)=σ2I\text{Var}(\eta) = \sigma^2 I E(||error||22)=E(||ε||22)E(||error||22)=E(||ε||22)\mathbb{E}(||\text{error}||_2^2) = \mathbb{E} (||\varepsilon||_2^2) 即 argminβˆ(y)||η||22=(X′X)−1X′y=argminlinear, unbiased βˆ(y)E(||ε||22)argminβ^(y)||η||22=(X′X)−1X′y=argminlinear, unbiased β^(y)E(||ε||22) \text{argmin}_{\text{} \widehat\beta(y)} \, ||\eta||_2^2 \;=\; (X'X)^{-1}X'y \;=\; \text{argmin}_{\text{linear, unbiased } \widehat\beta(y)} …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.