Questions tagged «residuals»

模型的残差是实际值减去预测值。许多统计模型都对误差进行了假设,该误差由残差估算。

1
LASSO假设
在LASSO回归方案中, y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon, LASSO估计值由以下优化问题给出 minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 是否有关于分布假设?ϵϵ\epsilon 在OLS场景中,人们会期望ϵϵ\epsilon是独立的并且是正态分布的。 在LASSO回归中分析残差是否有意义? 我知道LASSO估计可以作为\ beta_j的独立双指数先验下的后验模式获得βjβj\beta_j。但是我还没有找到任何标准的“假设检查阶段”。 提前致谢 (:

1
即使在具有适当相关结构的模型中,自相关残差模式仍然存在吗?如何选择最佳模型?
语境 该问题使用R,但与一般统计问题有关。 我正在分析死亡率因素(由于疾病和寄生虫引起的死亡率百分比)对蛾类种群随时间推移的增长率的影响,其中每年从12个地点采样幼虫种群,为期8年。人口增长率数据显示出随时间变化的清晰但不规则的周期性趋势。 一个简单的广义线性模型的残差(增长率〜%疾病+%寄生病+年)随着时间的推移显示出相似的清晰但不规则的周期性趋势。因此,同样形式的广义最小二乘模型也适用于具有适当相关结构的数据,以处理时间自相关,例如复合对称性,自回归过程阶数1和自回归移动平均相关结构。 所有模型均包含相同的固定效果,使用AIC进行比较,并通过REML进行拟合(以允许通过AIC比较不同的相关结构)。我正在使用R软件包nlme和gls函数。 问题1 当相对于时间绘制时,GLS模型的残差仍显示几乎相同的周期性模式。即使在精确说明自相关结构的模型中,这种模式也会一直存在吗? 我在第二个问题下面模拟了R中的一些简化但相似的数据,该问题基于我目前对评估模型残差中的时间自相关模式所需的方法的了解而显示,现在我知道这是错误的(请参阅答案)。 问题2 我已经为GLS模型拟合了所有可能的合理相关结构,但是实际上没有一个比没有任何相关结构的GLM更好:只有一个GLS模型略胜一筹(AIC分数= 1.8低),而其余所有模型更高的AIC值。但是,只有当所有模型都由REML拟合时才是这种情况,而GLS模型显然要好得多,而不是ML,但是我从统计资料中了解到,出于某些原因,您只能使用REML来比较具有不同相关结构和相同固定效果的模型我不会在这里详述。 鉴于数据具有明显的时间自相关性质,如果没有模型比简单的GLM更好,那么假设我使用的是合适的方法,那么最合适的方法来决定使用哪个模型进行推断(我最终想使用AIC比较不同的变量组合)? Q1“模拟”探索具有和没有适当相关结构的模型中的残差模式 生成具有“时间”的循环效应和“ x”的正线性效应的模拟响应变量: time <- 1:50 x <- sample(rep(1:25,each=2),50) y <- rnorm(50,5,5) + (5 + 15*sin(2*pi*time/25)) + (x/1) y应该在“时间”上显示出具有随机变化的周期性趋势: plot(time,y) 与带有随机变化的'x'的正线性关系: plot(x,y) 创建一个简单的线性加法模型“ y〜time + x”: require(nlme) m1 <- gls(y ~ time + x, method="REML") 如预期的那样,该模型在针对“时间”绘制时,在残差中显示出清晰的周期性模式: plot(time, m1$residuals) …

4
在线性回归中确认残差的分布
假设我们进行了简单的线性回归y=β0+β1x+uy=β0+β1x+uy=\beta_0+\beta_1x+u,保存残差ui^ui^\hat{u_i}和绘制残差分布的直方图。如果我们得到的东西看起来像是熟悉的分布,是否可以假定我们的误差项具有该分布?说,如果我们发现残差类似于正态分布,那么假设总体中误差项的正态性是否有意义?我认为这是明智的,但是如何证明其合理性呢?


1
逻辑回归中的Pearson VS Deviance残差
我知道标准化的Pearson残差是以传统的概率方式获得的: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} 和偏差残差通过更统计的方式获得(每个点对可能性的贡献): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} 其中 = 1,如果 = 1和 = -1,如果 = 0。sisis_iyiyiy_isisis_iyiyiy_i 您能直观地向我解释如何解释偏差残差的公式吗? 此外,如果我要选择一个,那一个更合适,为什么呢? 顺便说一句,一些参考文献声称我们基于以下项得出偏差残差 −12ri2−12ri2-\frac{1}{2}{r_i}^2 其中是上面提到的。ririr_i

2
皮尔逊残差
在卡方检验拟合优度的背景下,有关皮尔逊残差的初学者问题: 除测试统计量外,R chisq.test函数还报告皮尔逊残差: (obs - exp) / sqrt(exp) 我理解为什么查看观察值与期望值之间的原始差异并不能提供足够的信息,因为较小的样本将导致较小的差异。但是,我想更多地了解分母的作用:为什么要除以期望值的根?这是“标准化”残差吗?

3
根据残差的大小对数据集进行分层并进行两次样本比较,是否完全可以辩护?
我认为这是一种临时方法,对我来说似乎非常可疑,但也许我错过了一些东西。我已经在多元回归中看到了这一点,但让我们保持简单即可: yi=β0+β1xi+εiyi=β0+β1xi+εi y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i} 现在从拟合模型中提取残差 ei=yi−(β^0+β^1xi)ei=yi−(β^0+β^1xi) e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right) 并根据残差的大小对样本进行分层。例如,假设第一个样本是残差的底部90%,第二个样本是残差的顶部10%,然后继续进行两个样本比较-我已经在模型xxx和不在模型中的变量上。所使用的非正式逻辑是,可能值远高于您在模型下期望值的点(即较大的残差)在某些方面有所不同,并以此方式调查了这种差异。 我对这个问题的想法是: 如果在模型中的预测变量上看到2个样本的差异,则存在模型未考虑其当前状态的预测变量的影响(即非线性影响)。 如果您看到模型中没有的变量存在2个样本的差异,那么也许它应该首先出现在模型中。 有一件事我经验发现(通过模拟)是,如果你是比较平均的预测模型中的xxx并以这种方式分层产生两个样本,x¯¯¯1x¯1\overline{x}_{1}和x¯¯¯2x¯2\overline{x}_{2},它们是彼此正相关。这是有意义的,因为这两个样品取决于y¯¯¯,x¯¯¯,σ^x,σ^yy¯,x¯,σ^x,σ^y\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}和ρ X ÿρ^xyρ^xy\hat{\rho}_{xy}。当您将截止值向下移动时,相关性会增加(即,您用于划分样本的百分比)。因此,至少,如果要进行两样本比较,则需要调整统计量分母中的标准误差以考虑相关性(尽管我尚未为协方差)。ttt 无论如何,我的基本问题是:这样做有任何理由吗?如果是这样,在什么情况下这可能是有用的事情?显然,我认为没有,但是有些事情我没有以正确的方式考虑。

1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
GLM的归一化变换的推导
\newcommand{\E}{\mathbb{E}}如何是A(⋅)=∫duV1/3(μ)A(⋅)=∫duV1/3(μ)A(\cdot) = \displaystyle\int\frac{du}{V^{1/3}(\mu)}正火变换为指数族衍生? XXXh(X)h(X)h(X)κiκi\kappa _iithithi^{th}κ3(h(X¯))≈h′(μ)3κ3(X¯)N2+3h′(μ)2h′′(μ)σ4N+O(N−3),κ3(h(X¯))≈h′(μ)3κ3(X¯)N2+3h′(μ)2h″(μ)σ4N+O(N−3), \kappa _3(h(\bar{X})) \approx h'(\mu)^3\frac{\kappa _3(\bar{X})}{N^2} + 3h'(\mu)^2h''(\mu)\frac{\sigma^4}{N} + O(N^{-3}), h(X)h(X)h(X) 我的第一个问题是关于算术的:我的泰勒展开式具有不同的系数,我不能证明他们放弃了许多项。 Since h(x)h(X¯)−h(u)E(h(X¯)−h(u))3≈h(μ)+h′(μ)(x−μ)+h′′(x)2(x−μ)2, we have:≈h′(u))(X¯−μ)+h′′(x)2(X¯−μ)2≈h′(μ)3E(X¯−μ)3+32h′(μ)2h′′(μ)E(X¯−μ)4+34h′(μ)h′′(μ)2E(X¯−μ)5+18h′′(μ)3E(X¯−μ)6.Since h(x)≈h(μ)+h′(μ)(x−μ)+h″(x)2(x−μ)2, we have:h(X¯)−h(u)≈h′(u))(X¯−μ)+h″(x)2(X¯−μ)2E(h(X¯)−h(u))3≈h′(μ)3E(X¯−μ)3+32h′(μ)2h″(μ)E(X¯−μ)4+34h′(μ)h″(μ)2E(X¯−μ)5+18h″(μ)3E(X¯−μ)6.\begin{align} \text{Since }h(x) &\approx h(\mu) + h'(\mu)(x - \mu) + \frac{h''(x)}{2}(x - \mu)^2\text{, we have:} \\ h(\bar{X}) - h(u) &\approx h'(u))(\bar{X} - \mu) + \frac{h''(x)}{2}(\bar{X} - \mu)^2 \\ …

3
预测异方差数据的方差
我正在尝试对异方差数据进行回归分析,以预测线性模型中的误差方差和均值。像这样: ÿ(x ,t )ξ(x ,t )ÿ¯(x ,t )σ(x ,t )= y¯(x ,t ) + ξ(x ,t ),〜ñ(0 ,σ(x ,t )),= y0+ a x + b t ,= σ0+ c x + dŤ 。y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 换句话说,数据包括在和各种值下重复测量。我假设这些测量值是“真实”平均值,它是和的线性函数,加性高斯噪声的标准偏差(或方差,我还没有决定)也线性地取决于。(我可以允许对和进行更复杂的依赖-线性形式没有很强的理论动机-但我不希望在现阶段使事情复杂化。)X 吨ˉ Ý(X ,吨)X …

4
R中ARIMA残差的Ljung-Box统计信息:令人困惑的测试结果
我正在尝试预测一个时间序列,为此我使用了季节性ARIMA(0,0,0)(0,1,0)[12]模型(= fit2)。它与R关于auto.arima的建议不同(R计算得出的ARIMA(0,1,1)(0,1,0)[12]会更好,我将其命名为fit1)。但是,在我的时间序列的最后12个月,我的模型(fit2)在调整后似乎更合适(长期存在偏差,我添加了剩余均值,新的拟合似乎更贴近原始时间序列这是过去12个月的示例,MAPE最近12个月的两种情况: 时间序列如下所示: 到目前为止,一切都很好。我对这两个模型都进行了残差分析,这就是困惑。 acf(resid(fit1))看起来很棒,非常白噪声: 但是,Ljung-Box测试不适用于例如20个滞后: Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) 我得到以下结果: X-squared = 26.8511, df = 19, p-value = 0.1082 据我了解,这是对残差不是独立的确认(p值太大,无法与独立假设一起保留)。 但是,对于滞后1来说,一切都很好: Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1) 给我结果: X-squared = 0.3512, df = 0, p-value < 2.2e-16 我可能不理解该测试,或者与我在acf图上看到的有些矛盾。自相关性很低。 然后我检查了fit2。自相关函数如下所示: 尽管在最初的几个滞后处存在如此明显的自相关,但Ljung-Box测试在20个滞后处给我的结果比fit1好得多: Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0) 结果是 : X-squared = 147.4062, df = 20, p-value < 2.2e-16 而仅仅在lag1处检查自相关,也可以得到零假设的证实! Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0) X-squared = 30.8958, …


4
为什么说“残留标准误差”?
标准误差是估计的标准偏差σ(θ)的估计的θ为参数θ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta 为什么将残差的估计标准偏差称为“残差标准误差”(例如,在R summary.lm函数的输出中)而不称为“残差标准差”?我们在此为什么参数估计配备标准误差? 我们是否将每个残差都视为“其”误差项的估计量,并估计所有这些估计量的“合并”标准误差?

1
R:检验线性模型残差的正态性-使用哪些残差
我想对线性模型的残差进行Shapiro Wilk的W检验和Kolmogorov-Smirnov检验,以检查正态性。我只是想知道应该使用什么残差-原始残差,Pearson残差,学生化残差或标准化残差?对于Shapiro-Wilk的W检验,原始和Pearson残差的结果似乎相同,而其他残差的结果则不同。 fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # W = 0.9058, p-value = 0.008722 shapiro.test(res4) # W = 0.9205, p-value = 0.02143 关于KS的同样问题,以及是否应按照以下方法针对正态分布(范数)测试残差 ks.test(res1, "pnorm") # …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.