Questions tagged «residuals»

模型的残差是实际值减去预测值。许多统计模型都对误差进行了假设,该误差由残差估算。

1
您使用哪种类型的残差拟合后分析?
当执行OLS多元线性回归时,我不是针对拟合值绘制残差,而是针对拟合值绘制(内部)学生化残差(协变量为dito)。这些残差定义为: Ë∗一世= e一世s2(1 - ħ我我)---------√ei∗=eis2(1−hii)\begin{equation} e^*_i = \frac{e_i}{\sqrt{s^2 (1-h_{ii})}} \end{equation} 其中是残差,h_ {ii}是帽子矩阵的对角元素。要获得R中的这些学生化残差,可以使用命令。Ë一世eie_iH我我hiih_{ii}rstandard 人们在这种情况下通常使用什么类型的残差?例如,您只是坚持使用Ë一世eie_i还是使用折刀残差或完全使用其他方式。 注意:我对定义没有人使用过的一种新型残差的论文不感兴趣。

2
为什么我们要使用残差来检验回归误差的假设?
假设我们有一个模型Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i。 回归有许多假设,例如误差ϵiϵi\epsilon_i应该以均值为零和恒定方差的正态分布。我被教导要检查使用正常的QQ阴谋测试残差的常态这些假设ei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_i和残差对拟合曲线图,以检查残差与不断变化而改变零附近。 但是,这些测试全部针对残差,而不是误差。 据我所知,误差被定义为每个观察值与其“真实”平均值的偏差。因此,我们可以写ϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]。我们无法观察到这些错误。* 我的问题是:残差在模仿错误方面做得如何? 如果对残差似乎满足假设,是否也就对误差也满意?还有其他(更好)的方法来测试假设吗,例如将模型拟合到测试数据集并从中获取残差? *此外,这是否不需要正确指定模型?也就是说,响应确实有与预测的关系在该模型中指定的方式等。X1,X2,X1,X2,X_1, X_2, 如果我们缺少某些预测(比方说,),则期望ë [ ÿ 我 ] = β 0 + β 1 X 我1 + β 2 X 我2 + ⋯ + β …

1
离群值和离群值之间的区别
我偶然发现了LOF度量中的“离群值”一词(局部离群值因子),我对离群值一词很熟悉(基本上是说谎者-实例不像其余实例那样)。 在异常检测的情况下,“ Inliers”是什么意思?以及它与异常值有何关系?

1
是lm模型中的学生化残差v / s标准化残差
回归模型中的“学生残差”和“标准化残差”是否相同?我在R中建立了线性回归模型,并想绘制学生化残差v / s拟合值的图表,但没有找到在R中执行此操作的自动方法。 假设我有一个模型 library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 则使用plot(lm.fit)不会提供学生化残差与拟合值的任何关系图,但会提供标准化残差与拟合值的关系图。 我用过了plot(lm.fit$fitted.values,studres(lm.fit),它将绘制出想要的图形,所以只想确认我走的路正确,并且学生化和标准化残差不是一回事。如果它们不同,则请提供一些指南以计算它们及其定义。我在网上搜索,发现它有点混乱。

3
引导残差:我做对了吗?
首先:据 我了解,引导残差的工作方式如下: 使模型适合数据 计算残差 重新采样残差并将其添加到1。 使模型适合3中的新数据集。 重复n次数,但始终将重新采样的残差添加到从1开始的拟合中。 到目前为止,对吗? 我想做的是稍微不同的事情: 我想为估计一些环境变量的算法估计参数和预测不确定性。 我所拥有的是该变量的无错误时间序列(来自模拟)x_true,在其中添加了一些噪声,x_noise以生成综合数据集x。然后,我尝试通过将平方和sum((x_estimate - x_true)^2)(!not x_estimate - x!)作为目标函数拟合我的算法来找到最佳参数。为了查看我的算法如何执行并创建参数分布的样本,我想重新采样x_noise,将其添加到x_true,再次拟合我的模型,冲洗并重复。这是评估参数不确定性的有效方法吗?我可以将自举数据集的拟合解释为预测不确定性,还是必须遵循上面发布的过程? / edit:我认为我还没有真正弄清楚模型的作用。可以认为它本质上类似于降噪方法。它不是预测模型,而是一种试图提取嘈杂的环境数据时间序列的基础信号的算法。 / edit ^ 2:对于在那里的MATLAB用户,我写下了一些我所要表达的快速且肮脏的线性回归示例。 我认为这是残差的“常规”自举(如果我错了,请纠正我):http : //pastebin.com/C0CJp3d1 这就是我想做的:http : //pastebin.com/mbapsz4c

2
观察到左偏斜与对称分布
这对我来说很难描述,但我会尽力使我的问题易于理解。因此,首先您必须知道,到目前为止,我已经完成了非常简单的线性回归。在估算系数之前,我先观察了的分布。左偏斜很重。在估算了模型之后,我非常确定会在QQ图中观察到左偏残差,但我绝对没有。此解决方案可能是什么原因?错误在哪里?还是分布与误差项的分布无关?ÿÿyÿÿy

3
在其他回归变量上回归Logistic回归残差
将OLS回归应用于连续响应后,可以通过依次运行每个协变量上的残差回归来建立多元回归方程。我的问题是,有没有办法通过逻辑回归残差进行逻辑回归呢? 也就是说,如果我想使用标准的广义线性建模方法来估计,有没有一种方法可以对x进行逻辑回归并获得伪残差R_1,然后对z回归R_1到得到逻辑回归系数的无偏估计量。对教科书或文献的参考将不胜感激。Pr(Y=1|x,z)Pr(Y=1|x,z)\Pr(Y = 1 | x, z)xxxR1R1R_1R1R1R_1zzz

4
拟合线性模型后,是否可以将拟合残差分解为偏差和方差?
我想将数据点分类为需要更复杂的模型,或者不需要更复杂的模型。我目前的想法是将所有数据拟合为简单的线性模型,并观察残差的大小以进行此分类。然后,我读了一些关于误差的偏差和方差贡献的信息,并意识到,如果我可以直接计算偏差,那么使用总误差(残差或标准残差)可能是更好的方法。 是否可以使用线性模型直接估算偏差?有无测试数据?交叉验证是否对您有帮助? 如果不是,是否可以使用线性模型的平均自举合奏(我认为它称为装袋)来近似偏差?

2
残差与潜在的干扰有何关系?
在最小二乘法中,我们要估计模型中的未知参数: Yj=α+βxj+εj(j=1...n)Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) 一旦完成(对于某些观测值),我们将获得拟合的回归线: Yj=α^+β^x+ej(j=1,...n)Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) 现在显然我们想检查一些图以确保满足假设。假设您要检查均方差,但是,实际上我们正在检查残差。假设您检查了残差与预测值的关系图,如果这表明我们看到了明显的异方差性,那么这与干扰项什么关系?残差中的异方差是否表示扰动方面的异方差? ejeje_jεjεj\varepsilon_j

2
为什么负二项式回归的Pearson残差比Poisson回归的残差小?
我有这些数据: set.seed(1) predictor <- rnorm(20) set.seed(1) counts <- c(sample(1:1000, 20)) df <- data.frame(counts, predictor) 我进行了泊松回归 poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson") 负二项式回归: require(MASS) nb_counts <- glm.nb(counts ~ predictor, data = df) 然后我为泊松回归计算色散统计量: sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts) # [1] 145.4905 负二项式回归: sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts) # [1] 0.7650289 在不使用方程式的情况下,谁能解释为什么负二项式回归的色散统计量远小于泊松回归的色散统计量?

1
为什么在检验正态性时残差的相关性不重要?
当(即,来自线性回归模型)时, ,在这种情况下为残差是相关的而不是独立的。但是,当我们进行回归诊断并想测试假设 ,每本教科书都建议对残差使用Q–Q图和统计检验旨在测试某些。ÿ= A X+ εY=AX+εY = AX + \varepsilonÿYYε 〜Ñ(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - H) Y \sim \mathcal{N}(0, (I - H) \sigma^2_{})e^1,…,e^ne^1,…,e^n\hat{e}_1, \ldots, \hat{e}_nε∼N(0,σ2I)ε∼N(0,σ2I)\varepsilon \sim \mathcal{N}(0, \sigma^2 I)e^e^\hat{e}e^∼N(0,σ2I)e^∼N(0,σ2I)\hat{e} \sim \mathcal{N}(0, \sigma^2 I)σ2∈ [Rσ2∈R\sigma^2 \in \mathbb{R} 对于这些测试,残差是相关的而不是独立的无关紧要?通常建议使用标准化残差: 但这仅使它们同余,而不是独立的。e^′一世=Ë^一世1个−H我我−-----√,e^i′=e^i1−hii,\hat{e}_i' = \frac{\hat{e}_i}{\sqrt{1 - h_{ii}}}, 重新表述这个问题: …

2
分类名义变量之间的类别之间的相关性
我有一个包含两个分类名义变量的数据集(均包含5个分类)。我想知道是否(以及如何)能够从这两个变量中识别类别之间的潜在关联。 换句话说,例如类别的结果 一世一世i变量1中的变量与变量2中的特定类别有很强的相关性。由于我有两个具有5个类别的变量,因此所有类别的总相关性分析将归结为25个结果(至少以我希望的方式/希望它能正常工作)。ĴĴj 我试图将问题表达为具体的问题: 问题1:假设我将分类变量转换为每个值(类别)5个不同的虚拟变量。我也为第二个变量运行相同的过程。然后,我想确定虚拟1.i和2.i之间的相关性(例如)。对我来说,通过普通的相关系数过程执行此过程在统计上是否正确?通过此过程得出的相关系数是否可以正确了解两个虚拟变量之间的相关性? 问题2:如果问题一中描述的过程是有效过程,是否可以同时对所有2个(或更多)分类名义变量类别进行分析? 我正在使用的程序是SPSS(20)。

4
何时使用非参数回归?
我在SAS中使用PROC GLM来拟合以下形式的回归方程 ÿ=b0+b1个X1个+b2X2+b3X3+b4Ťÿ=b0+b1个X1个+b2X2+b3X3+b4Ť Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 产生的残差的QQ图表示偏离正常值。任何变换都无法使残差正常。ÿÿY 此时,我可以安全地切换到非参数方法,例如PROC LOESS。 我已经使用过PROC LOESS,并且看起来比PROC GLM更好。但是我对非参数回归没有太多的了解。我不知道何时选择非参数回归而不是参数回归。 有人可以帮我弄这个吗? 我将继续添加另一个问题。以下是模型中我的变量的描述。 有时我得到负的预测成本。这根本不符合逻辑。我该如何解决这个问题?ÿ= 医疗费用X1个= 注射次数X2= 手术数量X3= 物理疗法的数量t = 时间ÿ=医疗费用X1个=注射次数X2=手术数量X3=物理疗法的数量Ť=时间 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of physical therapies}\\ t =\text{time}


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.