Questions tagged «residuals»

模型的残差是实际值减去预测值。许多统计模型都对误差进行了假设,该误差由残差估算。

3
均方误差和残差平方和
看一下Wikipedia的定义: 均方误差(MSE) 残差平方和(RSS) 在我看来 MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 其中是样本数,是我们对的估计。NNNfifif_iyiyiy_i 但是,没有维基百科文章提到这种关系。为什么?我想念什么吗?
31 residuals  mse 

2
原始残差与标准残差与学生残差-何时使用?
这看起来像一个类似的问题,没有得到很多答复。 省略了Cook的D之类的测试,而只是将残差作为一个整体来看,我对其他人在评估拟合优度时如何使用残差感兴趣。我使用原始残差: 在QQ图中,用于评估正态性 在与残差的散点图中,用于(a)异方差和(b)序列自相关的眼球检查。yyy 为了绘制与残差的关系以检查可能出现异常值的值,我更喜欢使用学生化残差。我偏爱的原因是,尽管标准化残差提供了极为相似的结果,但它允许轻松查看存在问题的残差。我的理论是,这取决于一所大学。yyyyyyyyy 这类似于其他人使用残差的方式吗?其他人会结合摘要统计使用此数量的图吗?

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 



2
广义线性(混合)模型(特别是残差)的诊断
我目前正在努力为困难计数数据(因变量)找到正确的模型。我尝试了各种不同的模型(对于我的数据,混合效果模型是必需的),例如lmer和lme4(使用对数变换),以及具有各种族(例如高斯或负二项式)的广义线性混合效果模型。 但是,我不确定如何正确诊断结果拟合。我在网络上发现了关于该主题的许多不同意见。我认为关于线性(混合)回归的诊断非常简单。您可以继续进行分析残差(正态),并通过绘制拟合值与残差比较来研究异方差。 但是,您如何针对通用版本正确执行此操作?现在让我们关注负二项式(混合)回归。我在这里看到了关于残差的非常相反的说法: 在第一个答案中指出,在广义线性模型中检查残差的正态性时,对于GLM,普通残差不是正态分布的。我认为这很清楚。但是,然后指出,皮尔逊和偏差残差也不应该是正常的。但是,第二个答案指出,偏差残差应该正态分布(与参考值结合)。 不过,?glm.diag.plots(来自R的boot软件包)的文档中暗示了异常残差应该以正态分布。 在这篇博客文章中,作者首先研究了NB混合效应回归模型中Pearson残差的正态性。不出所料(根据我的诚实观点),残差未显示为正常,因此作者认为此模型不合适。但是,如评论中所述,残差应根据负二项式分布进行分配。我认为,这与事实最接近,因为GLM残差可以具有除正态分布以外的其他分布。它是否正确?如何在此处检查异方差性? Ben&Yohai(2004)强调了最后一点(将残差与估计分布的分位数作图)。目前,这似乎是我要走的路。 简而言之:如何特别针对残差,如何正确研究广义线性(混合)回归模型的模型拟合?

5
线性模型的假设以及残差不是正态分布时的处理方法
我对线性回归的假设有些困惑。 到目前为止,我检查了是否: 所有的解释变量都与响应变量线性相关。(就是这种情况) 解释变量之间存在共线性。(几乎没有共线性)。 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。 残差是正态分布的。(事实并非如此) 但是我然后阅读以下内容: 经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。 问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗? 问题2 我的残差的QQ正态图如下所示: 这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的原假设: > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差与拟合值看起来像: 如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?

2
为什么为了估计回归线,残差的正态“根本不重要”?
Gelman and Hill(2006)在第46页上写道: 通常最不重要的回归假设是误差呈正态分布。实际上,出于估计回归线的目的(与预测单个数据点相比),假设正态性一点也不重要。因此,与许多回归教科书相比,我们不建议对回归残差的正态性进行诊断。 盖尔曼和希尔似乎没有进一步解释这一点。 盖尔曼和希尔正确吗?如果是这样,则: 为什么“根本不重要”?为什么既不重要也不完全不相关? 为什么在预测单个数据点时残差的正态性很重要? Gelman,A.,&Hill,J.(2006)。使用回归和多层次/层次模型进行数据分析。剑桥大学出版社

1
基于MCMC的回归模型中的残留诊断
我最近开始使用MCMC算法(实际上是R中的MCMCglmm函数)在贝叶斯框架中拟合回归混合模型。 我相信我已经了解了如何诊断估计过程的收敛性(迹线,geweke图,自相关,后验分布...)。 在贝叶斯框架中给我留下深刻印象的一件事是,似乎花了很多精力来进行这些诊断,而在检查拟合模型的残差方面却似乎做得很少。例如,在MCMCglmm中,确实存在残留的.mcmc()函数,但实际上尚未实现(即返回:“尚未为MCMCglmm对象实现的残留物”; predict.mcmc()的情况相同)。在其他软件包中似乎也缺少它,而且在我发现的文献中,除讨论广泛的DIC之外,它几乎没有被讨论过。 谁能指出一些有用的参考,理想情况下,我可以使用或修改R代码? 非常感谢。

2
在简单线性回归中,残差方差的公式从何而来?
根据我正在使用的文本,第残差的方差公式为:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) 我发现这难以置信,因为第残差是第观测值与第拟合值之间的差。如果要计算差异的方差,那么至少我会期望结果表达式中有些“加”。任何理解推导的帮助将不胜感激。ithithi^{th}ithithi^{th}ithithi^{th}

2
瓶颈架构在神经网络中如何工作?
我们将瓶颈架构定义为ResNet论文中发现的类型,其中[两个3x3转换层]替换为[一个1x1转换层,一个3x3转换层和另一个1x1转换层]。 我了解将1x1转换层用作尺寸缩减(和还原)的一种形式,这在另一篇文章中进行了解释。但是,我不清楚这种结构为什么像原始布局一样有效。 一些很好的解释可能包括:使用什么步幅,在什么层上?每个模块的示例输入和输出尺寸是多少?上图中的56x56功能图如何表示?64-d是否参考滤波器的数量,为什么与256-d滤波器不同?每层使用多少个权重或FLOP? 任何讨论都将不胜感激!


2
残差图:为什么要比较拟合值而不是观测到的
在OLS回归的背景下,我了解到,通常会查看残差图(相对于拟合值)来测试常数方差并评估模型规格。为什么针对拟合而不是值绘制残差?信息与这两个图有何不同?YYY 我正在研究产生以下残差图的模型: 因此,该图与拟合值的关系一目了然,但是针对值的第二个图具有模式。我想知道为什么这样的明显模式也不会在残差vs拟合图中显示出来....YYY YYY 22^2


4
如何评估装有lme4(> 1.0)的二项式GLMM的拟合度?
我有一个具有二项式分布和logit链接函数的GLMM,并且我觉得模型中没有很好地表示数据的重要方面。 为了测试这一点,我想知道数据是否通过对数刻度上的线性函数很好地描述了。因此,我想知道残差是否良好。但是,我无法确定要在哪个残差图上绘制以及如何解释该图。 请注意,我正在使用lme4的新版本(来自GitHub的开发版本): packageVersion("lme4") ## [1] ‘1.1.0’ 我的问题是:如何使用logit链接函数检查和解释二项式广义线性混合模型的残差? 以下数据仅代表我实际数据的17%,但是拟合在我的机器上已经花费了大约30秒,因此我将其保留为: require(lme4) options(contrasts=c('contr.sum', 'contr.poly')) dat <- read.table("http://pastebin.com/raw.php?i=vRy66Bif") dat$V1 <- factor(dat$V1) m1 <- glmer(true ~ distance*(consequent+direction+dist)^2 + (direction+dist|V1), dat, family = binomial) 最简单的绘图(?plot.merMod)会产生以下结果: plot(m1) 这已经告诉我一些事情了吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.