Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
GLM使用哪种残差和库克距离?
有人知道库克距离的公式是什么吗?最初的库克距离公式使用学生化残差,但是为什么R使用std。计算GLM的库克距离图时的皮尔逊残差。我知道没有为GLM定义学生化残差,但是用于计算Cook距离的公式如何? 假设以下示例: numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) 库克距离的公式是什么?换句话说,计算红色虚线的公式是什么?标准化皮尔逊残差的公式从何而来?

1
受限三次样条曲线和惩罚样条曲线有何不同?
我正在阅读很多有关在各种回归问题中使用样条曲线的信息。一些书(例如Hodges Riched Parrameterized线性模型)推荐了样条曲线。其他(例如Harrell 回归建模策略)选择了受限制的三次样条曲线。 在实践中,这些有何不同?您是否经常会从使用一种或另一种获得实质上不同的结果?一个或另一个具有特殊优势吗?

1
“先验稀疏”一词指的是什么(FBProphet论文)?
阅读“大规模预测”(FBProphet预测工具,请参阅https://peerj.com/preprints/3190.pdf)一文,我遇到了“先验稀疏”一词。作者解释说,他们正在使用这样的“稀疏先验”模型来建模与某些标量速率的速率偏差的向量,后者是逻辑增长模型中的模型参数。δδ\mathbf{\delta}ķķk 当他们指出,如果参数小,我是否正确理解“稀疏”是指携带接近零的元素的向量?我很困惑,因为我认为所有矢量元素都必须是回归的参数,但是像这样定义它们只会让参数和成为自由模型参数,不是吗?δĴ〜拉普拉斯(0 ,τ)δĴ〜拉普拉斯(0,τ)\delta_j \sim\text{Laplace}(0,\tau)ττ\tauķķkττ\tau 另外,是否使用拉普拉斯分布来生成先验共性?我不明白为什么它比例如正态分布更可取。

1
如何为R中的每个预测计算回归的置信度得分(使用随机森林/ XGBoost)?
使用随机森林或极端梯度增强(XGBoost)之类的算法时,是否可以获取每个预测值的置信度得分(也可以称为置信度值或似然度)?假设此置信度得分介于0到1之间,表示我对特定预测的信心如何。 根据我在互联网上发现的有关信心的信息,通常用间隔来衡量。这是一个使用库中confpred函数计算的置信区间的示例lava: library(lava) set.seed(123) n <- 200 x <- seq(0,6,length.out=n) delta <- 3 ss <- exp(-1+1.5*cos((x-delta))) ee <- rnorm(n,sd=ss) y <- (x-delta)+3*cos(x+4.5-delta)+ee d <- data.frame(y=y,x=x) newd <- data.frame(x=seq(0,6,length.out=50)) cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd) if (interactive()) { ##' plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y") with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T, col=Col("blue"), border=F)) } 代码输出仅给出置信区间: 还有一个库conformal,但我也将其用于回归的置信区间:“共形允许在共形预测框架中计算预测误差:(i)用于分类的p。值,以及(ii)回归的置信区间。 ” …

1
为什么LKJcorr是相关矩阵的先验?
I'm阅读中(第13章“冒险协方差” 高超)一书统计反思理查德McElreath在那里,他提出以下层次模型: (R是一个相关矩阵) 作者解释说,这LKJcorr是信息量较弱的先验,可作为相关矩阵的正则化先验。但是为什么会这样呢?LKJcorr分布具有什么特征,使其成为相关矩阵的先验?相关矩阵在实践中还使用了哪些其他先验条件?

3
一键编码与伪编码的问题
我知道以下事实:具有k个级别的分类变量应使用虚拟编码中的k-1个变量进行编码(与多值分类变量类似)。我想知道针对不同的回归方法,主要是线性回归,惩罚线性回归(Lasso,Ridge,ElasticNet),基于树的(随机森林),单次热编码(即使用k个变量代替)比虚拟编码有多少问题? ,梯度增强机)。 我知道在线性回归中会出现多重共线性问题(即使实际上我使用OHE拟合线性回归也没有任何问题)。 但是,是否需要在所有编码中都使用伪编码?如果使用一热编码,结果将有多大错误? 我的重点是在具有多个(高基数)分类变量的回归模型中进行预测,因此我对置信区间不感兴趣。

3
逐步回归的优点是什么?
为了解决问题,我正在尝试逐步回归。所以,我有两个问题: 逐步回归的优点是什么?它的特长是什么? 您如何看待混合方法?在混合方法中,您将使用逐步回归来选择要素,然后应用常规回归将所​​有所选要素结合在一起?

2
增量高斯过程回归
我想使用在数据点上通过数据流一个一到达的滑动窗口来实现增量式高斯过程回归。 让表示输入空间的维数。因此,每个数据点x i具有d个元素。dddX一世xix_iddd 令为滑动窗口的大小。ñnn 为了做出预测,我需要计算语法矩阵的逆,其中K i j = k (x i,x j),k是平方指数核。ķKKķ我Ĵ= k (x一世,XĴ)Kij=k(xi,xj)K_{ij} = k(x_i, x_j) 为了避免K随着每个新数据点变大,我认为可以在添加新点之前删除最旧的数据点,这样可以防止gram增长。例如,让其中,Σ是权重的协方差和φ是由平方指数内核隐含的隐式映射函数。ķ= ϕ (X)ŤΣ φ (X)K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi 现在让 ]和X n e w = [ x t − n + 2 | 。。。| X Ť | X 吨+ 1 ],其中X “s的ð由1列的矩阵。X= [ xt − …



1
线性回归中的正态性假设
作为线性回归的假设,误差分布的正态性有时被错误地“扩展”或解释为需要y或x的正态性。 是否可以构造一个场景/数据集,其中X和Y是非正态的,但误差项是,因此获得的线性回归估计值是有效的?

1
核岭回归效率
岭回归可以表示为,其中是预测标签,的识别矩阵,我们试图找到一个标签的对象,而的的矩阵对象使得:ÿ^= (X′X +a一世d)− 1X Xy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}xÿ^y^\hat{y}一世dId\mathbf{I}_dd× dd×dd \times dXx\mathbf{x}XX\mathbf{X}n × dn×dn \times dñnnX一世= (X我,1,。。。,X我,d)∈[Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X =⎛⎝⎜⎜⎜⎜⎜X1 ,1X2 ,1⋮XÑ ,1X1 ,2X2 ,2⋮X1 ,2……⋱…X1 ,dX2 ,d⋮Xñ ,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ …

2
分组数据上的随机森林
我在具有层次结构的高维分组数据(50个数字输入变量)上使用随机森林。在70个不同对象的30个位置上进行了6次复制,收集了数据,从而产生了12600个数据点,这些数据点不是独立的。 似乎随机森林正在过度拟合数据,因为oob误差远小于我们在训练期间将一个对象的数据遗漏掉然后用训练后的随机森林预测遗漏对象的结果时得到的误差。此外,我已经关联了残差。 我认为过度拟合是由于随机森林期望独立数据而引起的。是否可以告诉随机森林有关数据的层次结构?还是有另一种强大的集成或收缩方法可以处理具有强大交互结构的高维分组数据? 有什么提示我可以做得更好吗?

3
如何计算两个斜率之差?
有没有一种方法可以了解两条线(或多或少)是否平行?我有两条线是从线性回归生成的,我想了解它们是否平行。换句话说,我想得到这两条线的斜率的不同。 是否有R函数来计算? 编辑: ...,以及如何获得线性回归线的斜率(以度为单位)?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.