Questions tagged «residuals»

模型的残差是实际值减去预测值。许多统计模型都对误差进行了假设,该误差由残差估算。

3
如果残差是正态分布的,而y不是,该怎么办?
我有一个奇怪的问题。假设您有一个较小的样本,您要使用简单线性模型分析的因变量高度偏左。因此,您假设üüu不是正态分布的,因为这将导致呈正态分布ÿÿy。但是,当您计算QQ正态图时,有证据表明残差呈正态分布。因此,任何人都可以假设误差项是正态分布的,尽管ÿÿy不是。那么,当误差项看起来是正态分布而ÿÿy不是时,它是什么意思呢?

4
用于计数回归的诊断图
在结果是计数变量的情况下,您发现哪些诊断图(也许是形式测试)对回归分析最有帮助? 我对泊松模型和负二项式模型以及每种模型的零膨胀和跨栏模型特别感兴趣。我发现的大多数资源都只是将残差与拟合值作图,而没有讨论这些图“应该”是什么样。 智慧和参考非常感谢。关于我为什么要问这个问题(如果相关)的背景故事是我的另一个问题。 相关讨论: 解释glm模型的残留诊断图? 广义线性模型的假设 GLM-诊断和哪个系列

1
解释plot.lm()
我有一个关于解释R中plot(lm)生成的图的问题。我想知道你们是否可以告诉我如何解释比例位置图和杠杆剩余图?任何意见,将不胜感激。假设掌握统计,回归和计量经济学的基础知识。

3
逻辑回归中的残差是什么意思?
在回答这个问题时,约翰·克里斯蒂(John Christie)建议通过评估残差来评估逻辑回归模型的拟合度。我熟悉如何解释OLS中的残差,它们与DV具有相同的比例,并且非常清楚地知道y与模型预测的y之间的差异。但是对于逻辑回归,过去我通常只检查模型拟合的估计值,例如AIC,因为我不确定残差对逻辑回归意味着什么。在稍微看一下R的帮助文件后,我发现R中有五种类型的glm残差可用c("deviance", "pearson", "working","response", "partial")。帮助文件是指: Davison,AC和Snell,EJ(1991)残留和诊断。在:统计理论与建模。为了纪念David Cox爵士,FRS编辑。欣克利,DV,里德,N。和斯内尔,EJ,查普曼和霍尔。 我没有那个副本。是否有简短的方法来描述如何解释这些类型中的每一种?在逻辑条件下,残差平方和会提供一种有意义的模型拟合度量,还是采用信息准则会更好?

3
方差分析假设正态性/残差的正态分布
ANOVA上的Wikipedia页面列出了三个假设,即: 案例独立性–这是简化统计分析模型的假设。 正态性–残差的分布是正态的。 方差的均等(或“同质”),称为均方差... 这里的兴趣点是第二个假设。几个资料来源列出了不同的假设。有人说原始数据是正常的,有人说残差。 弹出几个问题: 残差的正态性和正态分布是否是同一个人(根据Wikipedia条目,我会说正态性是一个属性,并且与残差不直接相关(但可以是残差的属性(括号内的深层嵌套文本,怪异)))? 如果没有,应该采用哪种假设?一?都? 如果正态分布残差的假设是正确的假设,我们是否仅通过检查原始值的直方图的正态性来犯一个严重的错误?

6
残差是“预测的减去实际值”还是“预测的实际减去值”
我已经看到“残差”被不同定义为“预测的减去实际值”或“实际的减去预测值”。为了说明目的,为了显示两个公式都被广泛使用,请比较以下Web搜索: 剩余的“预测的减去实际的” 剩余的“实际减去预期” 在实践中,几乎没有任何区别,因为单个残差的符号通常并不重要(例如,平方或取绝对值)。但是,我的问题是:这两个版本之一(预测优先与实际优先)是否被视为“标准”?我希望在使用中保持一致,因此,如果有完善的常规标准,我希望遵循它。但是,如果没有标准,我很乐意接受这作为答案,只要可以令人信服地证明没有标准约定。

2
为什么不允许贝叶斯算法查看残差?
在文章“讨论:生态学家应该成为贝叶斯主义者?”中 当布莱恩·丹尼斯(Brian Dennis)的目的似乎是警告人们时,他给出了令人惊讶的平衡和积极的贝叶斯统计观点。但是,他在一段中没有任何引用或理由的情况下说: 您会看到,贝叶斯不允许查看其残差。通过模型下的极端程度来判断结果违反了似然原理。对于贝叶斯来说,没有坏的模型,只有坏的信念。 为什么不允许贝叶斯分析残差?对此适当的引用是什么(即他在引用谁)? Dennis,B. 讨论:生态学家应该成为贝叶斯主义者吗? 生态应用,美国生态学会,1996年,6,1095-1103

5
OLS残差不呈正态分布时的回归
该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论。 但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。 违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?



3
R-对残留术语感到困惑
根均方误差 残差平方和 残留标准误差 均方误差 测试错误 我以为我曾经理解这些术语,但是我做统计问题的次数越多,我就越会感到困惑。我想要一些保证和具体的例子 我可以很容易地在网上找到这些方程式,但是我很难得到这些术语的“像我5岁时那样的解释”,因此我可以在脑海中清楚地看到它们之间的差异以及如何导致另一差异。 如果有人可以在下面使用此代码并指出如何计算这些术语中的每一个,我将不胜感激。R代码会很棒。 使用下面的示例: summary(lm(mpg~hp, data=mtcars)) 在R代码中向我展示如何查找: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ 像我5岁时解释这些区别/相似之处的加分点。例: rmse = squareroot(mss)

2
解释残差与拟合值的关系图,以验证线性模型的假设
考虑下Faraway的带有R的线性模型的图形(2005年,第59页)。 第一个图似乎表明残差和拟合值不相关,因为它们应该在具有正态分布误差的均线线性模型中。因此,第二和第三幅图似乎表明了残差和拟合值之间的相关性,提出了不同的模型。 但是,正如Faraway所述,为什么第二个图建议一个异方差线性模型,而第三个图建议一个非线性模型呢? 第二个图似乎表明残差的绝对值与拟合值强烈正相关,而在第三个图中没有明显的趋势。因此,从理论上讲,如果存在具有正态分布误差的异方差线性模型, 肺心病(ē,y^)=⎡⎣⎢⎢1个⋮1个⋯⋱⋯1个⋮1个⎤⎦⎥⎥肺心病(Ë,ÿ^)=[1个⋯1个⋮⋱⋮1个⋯1个] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (其中左侧的表达式是残差和拟合值之间的方差-协方差矩阵),这可以解释为什么第二和第三曲线与Faraway的解释一致。 但是是这样吗?如果不是,那么法拉威对第二和第三情节的解释又如何呢?另外,为什么第三幅图必然表示非线性?它是否可能是线性的,但是误差不是正态分布的,还是不是正态分布的,而是不以零为中心?

3
因变量的正态性=残差的正态性?
这个问题似乎一直在抬头,我出于我对统计(和理智!)的理解而试图将其斩首。 一般线性模型的假设(t检验,ANOVA,回归等)包括“正态性假设”,但我发现很少对此进行清楚地描述。 我经常碰到统计教科书/手册等,只是简单地指出“正态性假设”适用于每个组(即X类分类变量),我们应该检查每个组与正态性的背离。 问题: 假设是指Y 的值还是Y的残差? 对于特定的组,是否可能具有强烈的Y 值非正态分布(例如,偏斜),但是Y 残差的近似(或更正态分布)呢? 其他资料表明,该假设与模型的残差有关(在存在组的情况下,例如t检验/ ANOVA),我们应该检查这些残差的正态性偏离(即,只有一个QQ图/检验与跑)。 不残差的正态模型意味着残差的正态群体?换句话说,我们是否应该仅检查模型残差(与许多文本中的说明相反)? 为了说明这一点,请考虑以下假设示例: 我想比较两个种群(X)之间的树高(Y)。 在一个种群中,Y的分布强烈向右偏斜(即,大多数树短而高的树很少),而另一种实际上是正常的 总体而言,身高在正态分布的人群中较高(建议可能存在“实际”差异)。 数据转换并不能大大改善第一批人口的分布。 首先,比较完全不同的高度分布的组是否有效? 我在这里如何处理“正常性假设”?一个人群的召回身高不是正态分布。难道我检查残差两个群体单独或残差的模型(t检验)? 请在答复中按数字提及问题,经验表明我很容易迷路或迷路(尤其是我!)。请记住,我不是统计学家。尽管我对统计数据有一个合理的概念(即非技术性!)理解。 PS,我已经搜索了档案并阅读了以下没有巩固我的理解的主题: 方差分析假设正态性/残差的正态分布 残差与样本数据的正态性;那么t检验呢? 正常性测试“基本上没有用”吗? 测试正常性 评估分配的正态性 我使用什么测试来确认残差呈正态分布? 当Kolmogorov-Smirnov检验对于参数检验的残差很显着但偏度和峰度看起来很正常时,该怎么办?

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
解释glm模型的残留诊断图?
我正在寻找有关如何解释glm模型的残差图的指南。尤其是泊松,负二项式,二项式模型。当模型“正确”时,我们可以从这些图中得到什么?(例如,在处理泊松模型时,我们预计方差会随着预测值的增加而增加) 我知道答案取决于模型。任何参考(或​​要考虑的一般要点)将有所帮助/赞赏。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.