Questions tagged «residuals»

模型的残差是实际值减去预测值。许多统计模型都对误差进行了假设,该误差由残差估算。

2
评估逻辑回归模型
这个问题源于我对如何确定逻辑模型是否足够好的实际困惑。我有一些模型在成对变量两年后使用成对的个体项目状态。结果成功(1)或不成功(0)。我有在形成双时测量的自变量。我的目的是测试我假设会影响配对成功的变量是否对成功产生影响,并控制其他潜在影响。在模型中,关注变量很重要。 使用中的glm()函数估算模型R。为了评估模型的质量,我做了几件事:默认情况下glm()为您提供residual deviance,AIC和BIC。此外,我已经计算了模型的错误率并绘制了合并残差。 完整模型的残差,AIC和BIC小于我估计的其他模型(嵌套在完整模型中),这使我认为该模型比其他模型“更好”。 该模型的错误率相当低,恕我直言(如Gelman and Hill,2007,pp.99): error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)约为20%。 到目前为止,一切都很好。但是,当我绘制合并的残差(再次遵循Gelman和Hill的建议)时,大部分合并箱位于95%CI之外: 该图使我认为该模型存在某些错误。那应该导致我放弃模型吗?我是否应该承认该模型是不完美的,但可以保留并解释感兴趣变量的影响?我开玩笑地依次排除了变量,并且进行了一些变换,但并没有真正改善合并残差图。 编辑: 目前,该模型具有十几个预测变量和5种交互作用。 这些对是相对“彼此”独立的,因为它们都是在短时间内形成的(但严格来说不是同时发生的),并且有很多项目(13k)和很多个人(19k) ),因此相当多的项目只能由一个人(大约2万对)加入。

2
GLM族代表响应变量或残差的分布?
我一直在与几个实验室成员讨论这个问题,我们已经到了多个来源,但仍然没有答案: 当我们说一个GLM有一个泊松族时,我们说的是在谈论残差或响应变量的分布吗? 争论点 阅读此文章也指出,GLM的假设是观察的统计独立性,链接和方差函数的正确规范(这让我想起了残差,不响应变量),计量正确的比例为响应变量且缺乏单点的不当影响 这个问题有两个答案,每个答案都有两点,出现的第一个是关于残差的,第二个是关于响应变量的,是吗? 在此博客文章中,当谈到假设时,他们说“ 残差的分布可以是其他分布,例如二项式 ” 在年初这一章他们说,错误的结构必须是泊松,但残差必将有积极和消极的价值观,怎么可能泊松? 这个问题经常在诸如此类的问题中被引用,以使它们重复,但没有公认的答案 这个问题的答案谈论的是回应而不是残差 在这个从Pensilvania大学课程说明他们谈论的假设,而不是残差响应变量

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

3
残差自相关与滞后因变量
当对时间序列建模时,有可能(1)对误差项的相关结构进行建模,例如AR(1)过程(2)包括滞后因变量作为解释变量(在右侧) 我了解他们有时是选择(2)的重要理由。 但是,进行(1)或(2)或什至两者都进行的方法学原因是什么?

2
正态分布的X和Y是否更有可能导致正态分布的残差?
这里讨论了线性回归中对正态性假设的误解(“正态性”是指X和/或Y而不是残差),并且张贴者询问是否可能具有非正态分布的X和Y并且仍然具有正态分布的残差。 我的问题是:正态分布的X和Y 更有可能导致正态分布的残差吗?有很多相关的帖子,但是我不相信有人会问这个问题。 我意识到,如果只进行一次回归,那么这也许是微不足道的,但是如果有多个测试,那么就不那么重要了。假设我有100个X变量,且所有变量具有相同的偏斜度,我想测试所有这些变量。如果我将它们全部转换为正态分布,那么由于非正态分布的残差,我可能需要较少的X变量进行重新检验(具有不同/无转换),或者回归前的转换是完全任意的吗?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
回归残差分布假设
为什么有必要将分布假设置于误差上,即 ,具有 ε 我〜Ñ(0 ,σ 2)。ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ϵ一世〜ñ(0 ,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) 为什么不写 ,与 ÿ 我〜Ñ(X β,σ 2),ÿ一世= Xβ+ ϵ一世yi=Xβ+ϵiy_i = X\beta + \epsilon_{i}ÿ一世〜ñ(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) 其中在任一情况下。 我已经看到它强调指出分布假设是基于错误而不是数据,但没有解释。 ϵ一世= y一世- ÿ^ϵi=yi−y^\epsilon_i = y_i - \hat{y} 我不太了解这两种说法之间的区别。在某些地方,我看到分布假设被放置在数据上(贝叶斯照明。它似乎主要是),但是大多数情况下,假设被放置在错误上。 在建模时,为什么/应该选择一个假设还是另一个假设开始?

2
为什么有些人在原始数据上测试类似回归模型的假设,而另一些人在残差上测试它们呢?
我是实验心理学的博士生,我努力提高自己的技能和知识,以分析数据。 在我进入心理学的五年级之前,我一直认为类似回归的模型(例如ANOVA)假设以下内容: 数据的正态性 数据的方差同质性等等 我的本科课程使我相信这些假设与数据有关。但是,在我五年级的时候,我的一些讲师强调了这样一个事实,即假设是关于误差(由残差估计)的,而不是原始数据。 最近,我与一些同事谈论假设问题,他们也承认,他们发现只有在大学的最后几年才检查残差假设的重要性。 如果我了解得很好,类似回归的模型将对误差做出假设。因此,检查残差的假设是有意义的。如果是这样,为什么有人检查原始数据的假设?是否因为这样的检查程序近似于我们通过检查残差而获得的结果? 我会与一些比我和我的同事更准确的知识的人就这个问题进行讨论。我在此先感谢您的回答。


2
Logistic回归残差分析
这个问题有点笼统,任重而道远,但请耐心等待。 在我的应用程序中,我有许多数据集,每个数据集包含约20,000个数据点,这些数据点具有约50个特征和一个相关的二进制变量。我正在尝试使用正则逻辑回归(R包glmnet)对数据集建模 作为分析的一部分,我创建了如下的残差图。对于每个功能,我根据该功能的值对数据点进行排序,将数据点分为100个存储桶,然后计算每个存储桶内的平均输出值和平均预测值。我绘制这些差异。 这是残差图示例: 在上图中,特征的范围为[0,1](浓浓度为1)。如您所见,当特征值较低时,模型似乎偏向于高估1输出的可能性。例如,在最左边的存储桶中,模型将概率高估了大约9%。 有了这些信息,我想以一种简单的方式更改功能定义,以大致纠正这种偏差。更换等变更 x → x--√x→xx \rightarrow \sqrt{x} 要么 x → f一个(x )= { aX 如果 x &lt; a 其他x→fa(x)={a if x&lt;a x elsex \rightarrow f_a(x) = \cases{a & if $x<a$ \cr x & else} 我怎样才能做到这一点?我正在寻找一种通用的方法,以便人类可以快速滚动浏览所有约50个图并进行更改,然后对所有数据集执行此操作,并经常重复进行此操作,以使模型随着数据随时间的变化而保持最新。 作为一个普遍的问题,这是否是正确的方法?Google搜索“逻辑回归残差分析”不会返回许多具有良好实践建议的结果。他们似乎专心回答以下问题:“此模型是否合适?” 并提供Hosmer-Lemeshow等各种测试来回答。但是我不在乎我的模型是否好,我想知道如何使其更好!

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: &gt; soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: &gt; fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: &gt; …

2
异方差和残差正态性
我猜想我有一个很好的线性回归(这是用于大学项目的,因此我并不一定要非常准确)。 关键是,如果我绘制残差与预测值的关系图,(根据我的老师的话)会有异方差的迹象。 但是,如果我绘制残差的QQ图,则很明显它们是正态分布的。此外,残差的Shapiro检验的值为,因此我认为毫无疑问,残差实际上是正态分布的。ppp0.80.80.8 问题:如果残差呈正态分布,预测值怎么会有异方差?


2
在R中拟合多元线性回归:自相关残差
我正在尝试使用以下方程式估算R中的多元线性回归: regr &lt;- lm(rate ~ constant + askings + questions + 0) 问和问题是按季度构建的季度数据时间序列askings &lt;- ts(...)。 现在的问题是我得到了自相关残差。我知道可以使用gls函数拟合回归,但是我不知道如何识别必须在gls函数中实现的正确的AR或ARMA错误结构。 我现在尝试再次估算, gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) 但是很遗憾,我既不是R专家也不是统计学专家来确定p和q。 如果有人可以给我一个有用的提示,我将很高兴。提前非常感谢您! 乔


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.