Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
模拟数据以适应中介模型
我有兴趣找到一种过程来模拟与指定的中介模型一致的数据。根据测试调解模型的一般线性结构方程模型框架,该模型首先由Barron和Kenny(1986)概述,并在Judd,Yzerbyt和Muller(2013)等其他地方进行了介绍,其结果模型为调解模型YYY,介体和预测变量,并由以下三个回归方程式控制: 通过对 的间接作用或中介作用可以定义为或等效地定义为。在旧的调解测试框架下,通过测试方程式1中的,建立了调解medmed\newcommand{\med}{\rm med} \medXXXYmedY=b11+b12X+e1=b21+b22X+e2=b31+b32X+b32med+e3(1)(2)(3)(1)Y=b11+b12X+e1(2)med=b21+b22X+e2(3)Y=b31+b32X+b32med+e3\begin{align} Y &= b_{11} + b_{12}X + e_1 \tag{1} \\ \med &= b_{21} + b_{22}X + e_2 \tag{2} \\ Y &= b_{31} + b_{32}X + b_{32} \med + e_3 \tag{3} \end{align}XXXYYYmedmed\medb22b32b22b32b_{22}b_{32}b12−b32b12−b32b_{12}-b_{32}b12b12b_{12}b22b22b_{22}等式2中的。b32b32b_{32} 到目前为止,我已经尝试使用in 来模拟与各种回归系数的值一致的和值,例如以下代码:medmed\medYYYrnormR x <- rep(c(-.5, .5), 50) med <- 4 + .7 * x + …

1
解释RandomForestRegressor的实际误差估计
我在数据上使用RandomForest回归器,可以看到oob得分为0.83。我不确定是怎么回事。我的意思是我的目标是10 ^ 7范围内的较高值。因此,如果是MSE,则应该更高。我不明白0.83在这里表示什么。 我正在使用sklearn工具包的python的RandomForestRegressor。 我做 模型= RandomForestRegressor(max_depth = 7,n_estimators = 100,oob_score = True,n_jobs = -1)model.fit(trainX,trainY) 然后我看到了model.oob_score_,得到的值像0.83809026152005295

2
计算预测间隔
我在这里有以下数据。我正在尝试计算烃百分比为1.0时平均纯度的95%置信区间。在R中,输入以下内容。 > predict(purity.lm, newdata=list(hydro=1.0), interval="confidence", level=.95) fit lwr upr 1 89.66431 87.51017 91.81845 但是,如何自己得出这个结果?我试图使用以下方程式。 snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)−−−−−−−−−−−−−−−−−−−−−−√snew=s2(1+1N+(xnew−x¯)2∑(xi−x¯)2)s_{new}=\sqrt{s^2\left(1+\frac{1}{N}+\frac{(x_{new}-\bar x)^2}{\sum(x_i-\bar x)^2}\right)} 我在R中输入以下内容 > SSE_line = sum((purity - (77.863 + 11.801*hydro))^2) > MSE = SSE_line/18 > t.quantiles <- qt(c(.025, .975), 18) > prediction = B0 + B1*1 > SE_predict = sqrt(MSE)*sqrt(1+1/20+(mean(hydro)-1)^2/sum((hydro - mean(hydro))^2)) > prediction …

4
对连续因变量使用逻辑回归
我最近对研究论文进行了修订,以下是审稿人对我论文的评论: 从一个模型获得的结果并不令人信服,特别是线性回归通常在处理离群值方面存在缺陷。我建议作者还尝试进行逻辑回归,并将相应结果与当前结果进行比较。如果获得类似的观察结果,结果将更加可靠。 审稿人的评论正确吗?Logistic回归优于多元线性回归吗? 问题是我的因变量不是分类变量,而是比例变量。我现在能做什么?您建议使用什么其他回归方法评估模型? 得分是下表中的因变量。新近度,频率,任期和最后得分是独立变量。 我从一个站点中提取了这些变量,并假设这些自变量对得分有重大影响。因此,我代表以下模型: 顺便说一下,此线性模型的R平方值是0.316!审阅者也对此值发表了评论: 由于没有关于学习系数质量的指标,因此结果令人信服。小R ^ 2不能表示良好的性能,因为模型可能过拟合。 R平方的0.316非常低吗?在以前的论文中,我看到了很多类似的价值观。

1
使用百分位数作为预测变量-好主意吗?
我正在考虑一个问题,该问题是使用线性回归来预测客户的对数(支出)。 我正在考虑将哪些功能用作输入,并想知道将变量的百分位数用作输入是否可以。 例如,我可以将公司收入用作输入。我想知道的是,我是否可以使用公司收入百分比来代替。 另一个示例是分类行业分类器(NAICS)-如果我要查看每个NAICS代码的中位数支出,然后将每个NAICS代码分配给一个“ NAICS百分位数”,那将是我可以使用的有效解释变量吗? 只想知道使用百分位数时是否有任何需要注意的问题?它在某种程度上等同于一种要素缩放吗?

2
在逻辑回归中为高度偏斜的数据集添加权重
我使用的是Logistic回归的标准版本,以使我的输入变量适合二进制输出变量。 但是,在我的问题中,负输出(0s)远大于正输出(1s)。比例为20:1。因此,当我训练分类器时,似乎即使强烈暗示正输出可能性的特征对于其对应参数仍然具有非常低(非常负)的值。在我看来,发生这种情况是因为有太多否定示例将参数拉向它们的方向。 所以我想知道我是否可以为正例添加权重(例如,使用20而不是1)。这可能完全有益吗?如果是这样,我应该如何添加权重(在以下等式中)。 成本函数如下所示: J=(−1/m)⋅∑i=1my⋅log(h(x⋅θ))+(1−y)(1−log(h(x⋅θ)))J=(−1/m)⋅∑i=1my⋅log⁡(h(x⋅θ))+(1−y)(1−log⁡(h(x⋅θ)))J = (-1 / m) \cdot\sum_{i=1}^{m} y\cdot\log(h(x\cdot\theta)) + (1-y)(1 - \log(h(x\cdot\theta))) 此成本函数的梯度(wrt)为:θθ\theta grad=((h(x⋅θ)−y)′⋅X)′grad=((h(x⋅θ)−y)′⋅X)′\mathrm{grad} = ((h(x\cdot\theta) - y)' \cdot X)' 这里, =测试用例数, =特征矩阵, =输出向量, = S型函数, =我们要学习的参数。mmmxxxyyyhhhθθ\theta 最后,我运行梯度下降以找到可能的最低该实现似乎正常运行。JJJ

3
高斯过程回归玩具问题
我试图通过高斯过程回归获得一些直觉,因此我尝试了一个简单的一维玩具问题。我拿了X一世= { 1 ,2 ,3 }xi={1,2,3}x_i=\{1,2,3\} 作为输入,并且 ÿ一世= { 1 ,4 ,9 }yi={1,4,9}y_i=\{1,4,9\}作为回应。(“灵感来自”ÿ=X2y=x2y=x^2) 对于回归,我使用了标准平方指数核函数: k (Xp,Xq)=σ2F经验值( -1个2升2|Xp-Xq|2)k(xp,xq)=σf2exp⁡(−12l2|xp−xq|2)k(x_p,x_q)=\sigma_f^2 \exp \left( - \frac{1}{2l^2} \left|x_p-x_q\right|^2 \right) 我认为存在标准偏差的噪音 σñσn\sigma_n,则协方差矩阵变为: ķp q= k (Xp,Xq)+σ2ñδp qKpq=k(xp,xq)+σn2δpqK_{pq} = k(x_p,x_q) + \sigma_n^2 \delta_{pq} 超参数 (σñ,升,σF)(σn,l,σf)(\sigma_n,l,\sigma_f)通过最大化数据的对数似然来估计。在某点做出预测X⋆x⋆x_\star,我分别通过以下方法找到了均值和方差 μx⋆=kT⋆(K+σ2nI)−1yμx⋆=k⋆T(K+σn2I)−1y\mu_{x_\star} = k_\star^T (\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} y σ2x⋆=k(x⋆,x⋆)−kT⋆(K+σ2nI)−1k⋆σx⋆2=k(x⋆,x⋆)−k⋆T(K+σn2I)−1k⋆\sigma_{x_\star}^2 = k(x_\star,x_\star)-k_\star^T(\mathbf{K}+\sigma_n^2\mathbf{I})^{-1} k_\star 哪里 k⋆k⋆k_\star 是之间的协方差的向量 x⋆x⋆x_\star …

1
调整后的R平方是否试图估计固定分数或随机分数总体的R平方?
可以假设固定分数或随机分数来定义 r平方:ρ2ρ2\rho^2 固定分数:样本量和预测变量的特定值保持固定。因此,ρ2fρf2\rho^2_f是当预测变量值保持恒定时在总体回归方程中由结果解释的方差比例。 随机分数:预测变量的特定值是从分布中得出的。因此,指的是总体中结果中解释的方差比例,其中预测变量值对应于预测变量的总体分布。ρ2rρr2\rho^2_r 之前我曾问过这种区别是否对估计有很大的不同ρ2ρ2\rho^2。我也普遍询问过如何计算的无偏估计 ρ2ρ2\rho^2。 我看到随着样本数量的增加,固定得分和随机得分之间的区别变得不那么重要了。但是,我试图确认调整后的是用于估计固定分数还是随机分数。R2R2R^2ρ2ρ2\rho^2 问题 调整后的 旨在估计固定分数或随机分数?R2R2R^2ρ2ρ2\rho^2 是否存在关于调整后的r平方的公式与一种或其他形式之间的关系的原则性解释?ρ2ρ2\rho^2 我困惑的背景 当我读殷和范(2001,p.206)时,他们写道: 多元回归模型的基本假设之一是自变量的值是已知常数,并且在实验之前由研究人员确定。只有因变量可以随样本的不同而自由变化。该回归模型称为固定线性回归模型。 但是,在社会科学和行为科学中,研究人员很少固定自变量的值,而且自变量也容易出现随机误差。因此,已经提出了第二种应用回归模型,在该模型中,因变量和自变量都可以变化(Binder,1959; Park&Dudycha,1974)。该模型称为随机模型(或校正模型)。尽管在正态性假设下从随机模型和固定模型获得的回归系数的最大似然估计是相同的,但它们的分布却非常不同。随机模型是如此复杂,以至于需要接受更多的研究才能代替通常使用的固定线性回归模型。因此,通常采用固定模型,即使没有完全满足这些假设(Claudy,1978年)。假设违背固定回归模型的这种应用将导致“过度拟合”,因为从效果不佳的样本数据中引入的随机误差往往会在过程中被大写。结果,以这种方式获得的样本多重相关系数往往会高估真实的人口多重相关(Claudy,1978; Cohen&Cohen,1983; Cummings,1982)。 因此,我不清楚上面的说法是说调整后的补偿了随机模型引入的误差,还是只是在标记该随机模型存在的文件中作了警告,但该论文将专注于固定模型。R2R2R^2 参考文献 Yin,P.,&Fan,X.(2001年)。在多元回归中估计收缩:不同分析方法的比较。实验教育杂志,69(2),203-224。PDF格式R2R2R^2

2
具有已知断点的分段线性回归中斜率的标准误差
情况 我有一个具有一个因变量和一个独立变量的数据集。我想用出现在已知/固定断点拟合连续分段线性回归。已知breakpoins没有不确定性,所以我不想估计它们。然后,我拟合以下形式的回归(OLS): 这是ÿÿyXXxķķk(一个1个,一个2,… ,一个ķ)(一个1个,一个2,…,一个ķ)(a_{1}, a_{2}, \ldots, a_{k})ÿ一世=β0+β1个X一世+β2最高(X一世-一个1个,0 )+β3最高(X一世-一个2,0 )+ … +βk + 1最高(X一世-一个ķ,0)+ϵ一世ÿ一世=β0+β1个X一世+β2最高⁡(X一世-一个1个,0)+β3最高⁡(X一世-一个2,0)+…+βķ+1个最高⁡(X一世-一个ķ,0)+ϵ一世 y_{i} = \beta_{0} + \beta_{1}x_{i} + \beta_{2}\operatorname{max}(x_{i}-a_{1},0) + \beta_{3}\operatorname{max}(x_{i}-a_{2},0) +\ldots+ \beta_{k+1}\operatorname{max}(x_{i}-a_{k},0) +\epsilon_{i} R set.seed(123) x <- c(1:10, 13:22) y <- numeric(20) y[1:10] <- 20:11 + rnorm(10, 0, 1.5) y[11:20] <- seq(11, 15, len=10) + rnorm(10, 0, 2) …



3
如何解释R中lm公式中的相互作用项?
在R中,如果我lm()以以下方式调用该函数: lm.1 = lm(response ~ var1 + var2 + var1 * var2) summary(lm.1) 这给了我一个带有的响应变量的线性模型var1,var2以及它们之间的相互作用。但是,我们如何精确地数字化解释交互作用项? 该文档说这是var1和之间的“交叉” var2,但没有给出“交叉”的确切含义。 知道R正在计算什么确切数字以合并两个变量之间的相互作用,这对我很有帮助。
9 r  regression 

2
高斯-马尔可夫定理:BLUE和OLS
我正在阅读Wikipedia上的Guass-Markov定理,并且希望有人可以帮助我确定该定理的要点。 我们假设矩阵形式的线性模型由下式给出: 并且我们正在寻找BLUE,。y=Xβ+ηy=Xβ+η y = X\beta +\eta βˆβ^ \widehat\beta 按照此,我会标注 “残余”和 “错误”。(即与高斯-马尔可夫页面上用法相反)。η=y−Xβη=y−Xβ\eta = y - X\betaε=βˆ−βε=β^−β\varepsilon = \widehat\beta - \beta 可以将OLS(普通最小二乘)估计器导出为。||residual||22=||η||22||residual||22=||η||22||\text{residual}||_2^2 = ||\eta||_2^2 现在,让表示期望运算符。据我了解,高斯-马尔可夫定理告诉我们的是,如果且,则argmin线性,无偏估计量由与OLS估算器。EE\mathbb{E}E(η)=0E(η)=0\mathbb{E}(\eta) = 0Var(η)=σ2IVar(η)=σ2I\text{Var}(\eta) = \sigma^2 I E(||error||22)=E(||ε||22)E(||error||22)=E(||ε||22)\mathbb{E}(||\text{error}||_2^2) = \mathbb{E} (||\varepsilon||_2^2) 即 argminβˆ(y)||η||22=(X′X)−1X′y=argminlinear, unbiased βˆ(y)E(||ε||22)argminβ^(y)||η||22=(X′X)−1X′y=argminlinear, unbiased β^(y)E(||ε||22) \text{argmin}_{\text{} \widehat\beta(y)} \, ||\eta||_2^2 \;=\; (X'X)^{-1}X'y \;=\; \text{argmin}_{\text{linear, unbiased } \widehat\beta(y)} …

1
III型平方和
我有一个带有类别变量的线性回归模型 一个一个A(男性和女性)和一个连续可变。乙乙B 我在的R中设置了对比代码options(contrasts=c("contr.sum","contr.poly"))。现在,我有了,以及它们之间的相互作用(A:B)的类型III平方和。一个一个A乙乙Bdrop1(model, .~., test="F") 我坚持的是如何为计算平方和。我乙乙B认为是sum((predicted y of the full model - predicted y of the reduced model)^2)。简化的模型看起来像y~A+A:B。但是当我使用时predict(y~A+A:B),R返回的预测值与完整模型的预测值相同。因此,平方和将为0。 (对于 一个一个A,我使用的简化模型y~B+A:B,该模型与相同y~A:B。) 这是随机生成的数据的示例代码: A<-as.factor(rep(c("male","female"), each=5)) set.seed(1) B<-runif(10) set.seed(5) y<-runif(10) model<-lm(y~A+B+A:B) options(contrasts = c("contr.sum","contr.poly")) #type3 sums of squares drop1(model, .~., test="F") #or same result: library(car) Anova(lm(y~A+B+A:B),type="III") #full model predFull<-predict(model) #Calculate sum of squares …

1
Logistic回归模型变量的p值的含义
因此,我正在R中使用逻辑回归模型。尽管我还不熟悉统计学,但我现在似乎对回归模型有了一些了解,但仍然有些困扰我: 查看链接的图片,您会看到我创建的示例模型的摘要R打印。该模型正在尝试预测是否将重新找到数据集中的电子邮件(二进制变量isRefound),并且数据集中包含与密切相关的两个变量isRefound,即- next24和next7days-均为二进制,并告知是否将在下一个单击邮件。从日志中的当前点开始的24小时/接下来的7天。 高p值应表明,此变量对模型预测的影响是相当随机的,不是吗?基于这一点,我不明白为什么当这两个变量被排除在计算公式之外时,模型预测的精度为什么会下降到10%以下。如果这些变量的重要性不高,为什么将它们从模型中删除会产生如此大的影响? 最好的问候和预先的感谢,Rickyfox 编辑: 首先,我仅删除了next24,这会产生很小的影响,因为它的系数很小。正如预期的那样,变化不大-不会为此上传图片。 移除next7day会对模型产生重大影响:AIC提升200k,精度降低至16%,召回率降低至73%

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.