Questions tagged «residuals»

模型的残差是实际值减去预测值。许多统计模型都对误差进行了假设,该误差由残差估算。


1
舍恩菲尔德残差
在具有多个变量的Cox比例风险模型中,如果对于这些变量之一,Schoenfeld残差不是平坦的,这是否会使整个模型无效?或者是否可以忽略效果不佳的变量?即,解释其他变量的系数,但不解释性能差的变量的结果系数。 处理Schoenfeld残差不平坦的模型有几种标准方法。暂时假设我们做不到。


2
如何在线性回归中对二元/二分法独立预测变量执行残差分析?
我正在下面的R中执行多元线性回归,以预测所管理基金的回报。 reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) 在这里,只有GRI和MBA是二元/二分法预测因子;其余的预测变量是连续的。 我正在使用此代码生成二进制变量的残差图。 plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 我的问题: 我知道如何检查残差图是否为连续的预测变量,但是当自变量为二进制时,如何测试线性回归的假设,例如均方差? 残留图:

4
残差对拟合值的对角直线作多元回归
我正在观察数据残差的奇怪模式: [编辑]这是两个变量的部分回归图: [EDIT2]添加了PP图 分布似乎运行良好(请参阅下文),但是我不知道这条直线可能来自何处。有任何想法吗? [UPDATE 31.07] 事实证明您是绝对正确的,我的案例中转发次数确实为0,而这〜15个案例导致了这些奇怪的残留模式。 现在,残差看起来好多了: 我还用黄土线包括了部分回归。

1
GLM使用哪种残差和库克距离?
有人知道库克距离的公式是什么吗?最初的库克距离公式使用学生化残差,但是为什么R使用std。计算GLM的库克距离图时的皮尔逊残差。我知道没有为GLM定义学生化残差,但是用于计算Cook距离的公式如何? 假设以下示例: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) 库克距离的公式是什么?换句话说,计算红色虚线的公式是什么?标准化皮尔逊残差的公式从何而来?


2
当使用OLS回归残差的误差时,为什么斜率总是正好为1?
我正在使用R中的一些简单模拟试验误差和残差之间的关系。我发现一件事是,无论样本大小或误差方差如何,当您拟合模型时,斜率始终为111 errors∼β0+β1×residualserrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} 这是我正在做的模拟: n <- 10 s <- 2.7 x <- rnorm(n) e <- rnorm(n,sd=s) y <- 0.3 + 1.2*x + e model <- lm(y ~ x) r <- model$res summary( lm(e ~ r) ) e并且r即使是小样本也具有高度(但不是完美)的相关性,但我不知道为什么会自动发生这种情况。数学或几何解释将是可理解的。

2
线性混合模型中方差的残差诊断和均质性
在问这个问题之前,我确实搜索了我们的网站并发现了很多类似的问题(例如here,here和here)。但是我觉得这些相关问题没有得到很好的回答或讨论,因此想再次提出这个问题。我觉得应该有很多观众希望对这些问题进行更清晰的解释。 对于我的问题,首先考虑线性混合效果模型y=Xβ+Zγ+ϵy=Xβ+Zγ+ϵ \mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon} 其中XβXβX\boldsymbol \beta是线性固定效果分量,ZZ\mathbf{Z}是对应的所述附加设计矩阵随机效应参数,γγ\boldsymbol \gamma。而ϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})是通常的误差项。 让我们假设唯一的固定影响因子是3个不同级别的分类变量Treatment。唯一的随机影响因素是变量Subject。也就是说,我们有一个具有固定治疗效果和随机受试者效应的混合效应模型。 因此,我的问题是: 线性混合模型设置中是否存在与传统线性回归模型类似的方差假设的同质性?如果是这样,那么在上述线性混合模型问题的背景下,假设的具体含义是什么?还有哪些其他重要假设需要评估? 我的想法:是的。假设(我的均值,零误差均值和均方差)仍来自此处:ϵ ∼ N(0,σ2I)ϵ ∼ N(0,σ2I)\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})。在传统的线性回归模型设置中,我们可以说假设是“误差的方差(或只是因变量的方差)在所有3个治疗水平上都是恒定的”。但是我不知道如何在混合模型设置下解释这个假设。我们应该说:“在3种治疗水平上,方差是恒定的吗?是否取决于受试者?” 有关残差和影响诊断的SAS在线文档提出了两种不同的残留物,即边际残差,和有条件的残差, 我的问题是,两个残差分别用于什么?我们如何使用它们来检查同质性假设?对我而言,只有边际残差可用于解决同质性问题,因为它对应于模型的。我的理解对吗?rm=Y−Xβ^rm=Y−Xβ^ \mathbf{r_m = Y - X \hat{\boldsymbol …

1
我对转换后的因变量进行日志记录,可以将GLM正态分布与LOG链接功能一起使用吗?
我有一个关于广义线性模型(GLM)的问题。我的因变量(DV)是连续的并且不正常。因此,我对其进行了日志转换(仍然不正常,但对其进行了改进)。 我想将DV与两个类别变量和一个连续协变量相关联。为此,我想进行GLM(我正在使用SPSS),但是我不确定如何决定要选择的分布和功能。 我已经进行了Levene的非参数检验,并且我具有方差均匀性,因此我倾向于使用正态分布。我已经读过,对于线性回归,数据不需要是正态的,残差也可以。因此,我从每个GLM分别打印了标准化的Pearson残差和线性预测变量的预测值(GLM正常标识函数和正常对数函数)。我已经进行了正态性检验(直方图和Shapiro-Wilk),并分别针对两个预测值绘制了残差与预测值(以检查随机性和方差)。来自身份函数的残差不正常,但来自对数函数的残差正常。我倾向于选择具有对数链接功能的正态,因为Pearson残差呈正态分布。 所以我的问题是: 可以对已经进行日志转换的DV使用GLM正态分布和LOG链接功能吗? 方差同质性检验是否足以证明使用正态分布是合理的? 残差检查程序是否正确以证明选择链接功能模型是正确的? 左侧是DV分布图,右侧是对数链接功能,是GLM法线的残差。


2
有影响的残差与异常值
首先,我应该声明已经在该站点上搜索了答案。我或者没有找到可以回答我问题的问题,或者我的知识水平太低,以至于我没有意识到自己已经阅读了答案。 我正在为AP统计考试学习。我必须学习线性回归,主题之一是残差。它有一份第253页的统计和数据分析简介副本。 双变量数据集中的异常点是那些在方向或方向上与散点图中的大多数其他点都偏离的点Xxxyyy 如果观察值的值与其余数据(在方向上与其余数据分开)相距甚远,则可能是有影响的观察。为了确定该观察结果是否确实具有影响力,我们评估该观察结果的去除是否对最小二乘法斜率或截距的值有很大影响。xxxxxx 如果观察值具有较大的残差,则为异常值。离群值观察值在方向上远离最小二乘法线。yyy Stattreck.com列出了四种根据残差确定异常值的方法: 与整体模式差异很大的数据点称为离群值。有四种方法可以将数据点视为异常值。 与其他数据点相比,它可能具有极限X值。 与其他数据点相比,它可能具有极高的Y值。 它可能具有极高的X和Y值。 即使没有极高的X或Y值,也可能与其余数据相距甚远。 这两个来源似乎相互冲突。谁能帮我消除困惑。另外,如何定义极端。如果数据点位于(Q1-1.5IQR,Q3 + 1.5IQR)之外,则AP Statistics使用该规则,这是一个异常值。我不知道如何仅通过残差图来应用它。


1
观察到的等位基因频率是否明显低于预期?
问题:如何构建测试以确定中部至南部山区观察到的“山”-等位基因频率(图1)是否明显低于生态选择模型所预测的(图2)(请参见下文)? 问题:我最初的想法是使模型残差相对于纬度:经度和海拔高度回归(这仅导致纬度和经度之间的相互作用显着)。问题在于,残基(图3)可能反映了模型无法解释的变异和/或它们是生物学上正在发生的事情,例如,等位基因没有时间向南扩散至其潜能,或者基因流存在一定障碍。如果将观察到的(图1)与预期的(图2)山等位基因频率进行比较,则存在明显的差异,尤其是在瑞典和挪威的中南部山脉。我接受该模型可能无法解释所有变化,但是我可以提出一个合理的检验来探索山等位基因尚未在中部至南部山区发挥其潜力的想法吗? 背景:我有一个双等位基因AFLP标记,其频率分布似乎与斯堪的纳维亚半岛的山地(和纬度:经度)与低地栖息地有关(图1)。“山”等位基因几乎固定在多山的北部。南部缺少山脉的“低地”等位基因几乎不存在或固定。当一个人从山上向南移动时,“山”等位基因的发生频率较低。从北到南的“山脉”等位基因频率的差异可能仅是由于系统地理学或历史过程造成的,因为该地区是从北部和南部开始殖民的。例如,如果高山等位基因起源于北部人口,那么也许它还没有时间完全扩展到南部人口, 我的工作假设是“山”等位基因频率是生态选择的结果(无效假设是中性选择)。 对于我的生态选择模型,我使用了以二项式等位基因频率作为响应变量的广义加性模型(GAM)(在Fennoscandinavia上采样了129个站点,每个站点通常采样了10至20个个体),并在以下几个气候和生长季节变量中:预测变量。模型结果如下(TMAX04-06 = 4月至6月的最高温度,Phen_NPPMN =平均生长期植被生产力,PET_HE_YR =年潜在蒸散量,Dist_Coast =到海岸的距离): Family: binomial Link function: logit Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + s(PET_HE_YR) + s(Dist_Coast) Parametric coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.74372 0.04736 -15.7 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.