Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
添加线性回归预测变量可减小R平方
我的数据集()具有因变量(DV),五个独立的“基准”变量(P1,P2,P3,P4,P5)和一个独立的关注变量(Q)。N≈10,000N≈10,000N \approx 10,000 我为以下两个模型运行了OLS线性回归: DV ~ 1 + P1 + P2 + P3 + P4 + P5 -> R-squared = 0.125 DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q -> R-squared = 0.124 即,添加预测变量Q减少了线性模型中解释的方差量。据我了解,这不应该发生。 明确地说,这些是R平方值,而不是调整后的R平方值。 我已经使用Jasp和Python的statsmodels验证了R平方值。 有什么理由可以看到这种现象吗?也许与OLS方法有关的东西?

1
为什么我们不能使用
假设我们有一个线性回归模型,其因变量。我们发现它的。现在,我们进行另一个回归,但是这次是在,类似地找到它的。有人告诉我,我无法将两个进行比较,以查看哪种模型更合适。这是为什么?给我的原因是,我们将比较不同数量(不同因变量)的可变性。我不确定这是否是充分的理由。R 2 y log (y )R 2 log (y ) R 2yyyR2yRy2R^2_ylog(y)log⁡(y)\log(y)R2log(y)Rlog⁡(y)2R^2_{\log(y)}R2R2R^2 还有办法使它正式化吗? 任何帮助,将不胜感激。

1
回归模型中的左侧和右侧命名法
y=β0+β1x1+ε0y=β0+β1x1+ε0y = \beta_{0} + \beta_{1}x_{1} + \varepsilon_{0} 描述回归模型的语言(例如上面指定的非常简单的线性回归)通常会发生变化,并且这种变化通常会在含义上产生细微的变化。例如,方程式左侧的模型部分可以用括号(包括我不知道的其他术语)来表示: 因变量(因果关系提示) 预测变量(暗示模型预测/进行预测) 响应变量(暗示因果关系,或至少是时间顺序) 结果变量(暗示因果关系) 命名法的变化在等式的右侧也是正确的(相同的免责声明是我对其他术语不了解): 自变量(暗示因果优先级,暗示实验设计) 预测变量(暗示预测,意味着该变量具有与之关联的非零参数估计) 在提议审查或交流研究的过程中,我不仅有机会使用一个或另一个术语来称呼它,而且后来又以我选择用它代替的术语来称呼它。虽然打电话的人当然是学徒的(注:我是专业的学徒,所以我很同情),但是由于我们所有人都知道所传达的内容,我仍然想知道: 回归模型中是否存在左,右变量的常用术语,这些术语与(a)模型的外部用途,(b)变量之间的因果关系以及(c)研究方面无关用来产生变量的设计本身? 注意:我不是在问正确建模和正确解释的重要问题(即,我非常在意因果关系,研究设计等),而是对一种语言进行一般讨论更感兴趣。 (我想我认为“左手变量”和“右手变量”可能被解释为一个可靠的答案,但是这些术语似乎很笨拙……也许这是一个笨拙的问题。:)

1
如何计算出样本R平方?
我知道这可能已经在其他地方讨论过了,但是我还没有找到明确的答案。我正在尝试使用公式计算线性回归模型的样本外,其中是残差平方的总和,而是平方总和。对于训练集,很明显R 2 S S R S S T[R2= 1 - S小号[R /小号小号Ť[R2=1个-小号小号[R/小号小号ŤR^2 = 1 - SSR/SST[R2[R2R^2小号小号[R小号小号[RSSR小号小号Ť小号小号ŤSST 小号小号Ť= ∑(y- ÿ¯吨ř 一个我Ñ)2小号小号Ť=Σ(ÿ-ÿ¯Ť[R一个一世ñ)2 SST = \Sigma (y - \bar{y}_{train})^2 那测试集呢?我应该继续使用来代替样本还是使用?ý ˉ ý吨Ë小号吨ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}ÿÿyÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test} 我发现如果我使用,则有时生成的可能为负。这与sklearn 函数的描述一致,他们使用(他们的linear_model 函数也使用它来测试样本)。他们指出“不管输入特征如何,始终预测y期望值的恒定模型将获得0.0的R ^ 2得分。”- [R2 ˉ ý吨Ë小号吨ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}[R2[R2R^2r2_score()ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}score() 但是,在其他地方,人们喜欢在这里和这里使用(dmi3kno的第二个答案)。所以我想知道哪个更有意义?任何评论将不胜感激!ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}

1
是lm模型中的学生化残差v / s标准化残差
回归模型中的“学生残差”和“标准化残差”是否相同?我在R中建立了线性回归模型,并想绘制学生化残差v / s拟合值的图表,但没有找到在R中执行此操作的自动方法。 假设我有一个模型 library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) 则使用plot(lm.fit)不会提供学生化残差与拟合值的任何关系图,但会提供标准化残差与拟合值的关系图。 我用过了plot(lm.fit$fitted.values,studres(lm.fit),它将绘制出想要的图形,所以只想确认我走的路正确,并且学生化和标准化残差不是一回事。如果它们不同,则请提供一些指南以计算它们及其定义。我在网上搜索,发现它有点混乱。

3
如何执行非负岭回归?
如何执行非负岭回归?非负套索可在中找到scikit-learn,但对于ridge,我无法强制beta的非负性,实际上,我得到的是负系数。有人知道为什么吗? 另外,我可以按照规则的最小二乘法实施ridge吗?将此问题移至另一个问题:我可以根据OLS回归实现岭回归吗?

2
对岭回归中“矩阵求逆的数值稳定性”的清晰解释及其在减少过拟合中的作用
我知道我们可以在最小二乘回归问题中采用正则化 w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] 并且这个问题有一个封闭形式的解决方案,如: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. 我们看到在第二个方程中,正则化只是在\ boldsymbol {X} ^ T \ boldsymbol {X}的对角线上添加了\ lambda,这样做是为了提高矩阵求逆的数值稳定性。λλ\lambdaXTXXTX\boldsymbol{X}^T\boldsymbol{X} 我目前对数值稳定性的“粗略”理解是,如果函数变得更加“数值稳定”,则其输出受输入噪声的影响较小。我很难将提高数值稳定性的概念与如何避免/减少过度拟合的问题联系在一起。 我曾尝试查看Wikipedia和其他一些大学网站,但他们没有深入解释为什么会这样。

3
使用回归来投影超出数据范围可以吗?永远不行吗?有时候好吗?
您对使用回归来投影数据范围之外有什么想法?如果我们确定模型遵循线性或幂模型形状,那么超出数据范围的模型是否有用?例如,我的数量受价格驱动。我们应该能够预测我认为超出数据范围的价格。你的想法? VOL PRICE 3044 4.97 2549 4.97 3131 4.98 2708 4.98 2860 4.98 2907 4.98 3107 4.98 3194 4.98 2753 4.98 3228 4.98 3019 4.98 3077 4.99 2597 4.99 2706 4.99 3000 4.99 3022 4.99 3084 4.99 3973 4.99 3675 4.99 3065 4.99 3407 4.99 2359 4.99 2802 4.99 2589 …

2
病例对照研究中的成活率趋势
我提交的一篇文章由于执行生存分析的方法不正确而被拒绝。裁判员除了:“对时间趋势进行生存分析需要更复杂的审查方式”之外,没有留下其他细节或解释。 问题: 在过去的几十年中,吸烟者死亡的额外风险是否有所降低? 数据: 德国有25,000名烟民。在1995年至2014年之间的任何时间,他们都被纳入了该队列。每个吸烟者(在入组时)都已与性别和年龄相匹配的对照组(未吸烟者)进行了匹配。对于整个学习期间死亡的每个人,我都有确切的死亡时间。那些在随访期间未死亡的人将受到审查。该研究旨在检查1995年至2014年期间每年吸烟者的额外死亡风险。 目的是计算: 每年吸烟者和非吸烟者的死亡率发生率,并研究这些趋势 每年(或连续几年)吸烟者死亡的额外风险。 应该如何分析数据?回想一下,1998年被包括在内的某人可能会在2015年去世。是否每年都使用使用开始和结束的计数过程格式的正确方法? 这是裁判员不喜欢的方法: 发病率通过泊松回归法计算。我们在模型中纳入了随访时间作为补偿,并在模型中纳入了年龄,性别,吸烟状况和日历期间(连续两年)。然后,使用R的predict()函数计算每1000人年的比率。偏移量(跟进时间)是指从入学起的整个观察时间(天)。 使用Cox模型估算从研究开始到结束的每个时期吸烟者的相对风险。为简单起见,我们将第一个时期的危险比与最后一个时期的危险比进行了比较。 问题:-一个人(连同他的控制权)可能在1998年被包括在内,因此属于该日历组,但在2006年遭受一个事件。-应该如何布置数据以进行Poisson和Cox回归分析?考克斯的计数过程?什么是开始和停止时间?-在这种情况下如何评估趋势? 需要说明的是:假设某位患者在1998年6月15日首次被观察到,并且经历了1998年12月31日的事件,该患者的时间变量值为730个可能的天中的182.5天,因为该时间段由随后的2年组成。每个时间段内观察到的最大时间为730天。 如果在一个时间段内观察到患者,但在另一个时间段内对患者进行检查(即经历过事件,事件或辍学),那么应该将观察到的天数添加到下一个时间段内吗? 因此,主要问题是后续时间和日历年度(用作连续两个年度的分类变量)的处理。

1
R中的交叉验证套索回归
R函数cv.glm(库:引导)为广义线性模型计算估计的K折交叉验证预测误差,并返回增量。使用此函数进行套索回归(库:glmnet)是否有意义?如果是,如何进行?glmnet库使用交叉验证来获得最佳的车削参数,但是我没有找到任何交叉验证最终glmnet方程的示例。


2
在贝叶斯线性回归中评估后验预测分布
我很困惑,如何评价贝叶斯线性回归后的预测分布,过去的基本情况进行了说明这里第3页,以下复制。 p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) 基本情况是此线性回归模型: ÿ= Xβ+ ϵ ,ÿ∼N(Xβ,σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) 如果我们使用一个统一的现有上,带刻度-INV χ 2上之前σ 2,OR正常-逆伽马之前(见此处)的后验预测分布解析和是学生吨。 ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 这个模型呢? ÿ= Xβ+ ϵ ,ÿ〜ñ(Xβ,Σ )ÿ=Xβ+ϵ,ÿ〜ñ(Xβ,Σ) y = X \beta + …

2
是否有一种优雅/有见地的方式来理解多个对象的线性回归身份
在线性回归中,我遇到了一个令人愉快的结果:如果我们拟合模型 E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, 然后,如果我们标准化并居中 YYY, X1X1X_1 和 X2X2X_2 数据, R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2. 在我看来,这就像是2个变量的版本 R2=Cor(Y,X)2R2=Cor(Y,X)2R^2 = \mathrm{Cor}(Y,X)^2 对于 y=mx+cy=mx+cy=mx+c 回归,这是令人愉快的。 但是,我所知道的唯一证据无论如何都不具有建设性或洞察力(请参阅下文),但纵观它,似乎应该容易理解。 范例想法: 的 β1β1\beta_1 和 β2β2\beta_2 参数给我们的“比例” X1X1X_1 和 X2X2X_2 在 YYY,因此我们采用各自比例的相关性... 的 ββ\betas是偏相关, R2R2R^2 是平方多重相关...相关乘以部分相关... 如果我们先正交化,那么 ββ\betas将是 Cov/VarCov/Var\mathrm{Cov}/\mathrm{Var}...这个结果在某种程度上讲几何意义吗? …


5
使用十分位找到相关性是一种统计上有效的方法吗?
我有一个1,449个不相关的数据点的样本(r平方0.006)。 在分析数据时,我发现通过将自变量值分为正向和负向组,每组因变量的平均值似乎存在显着差异。 使用自变量值将点分成10个bin(十分位数),十分位数与平均因变量值之间的相关性似乎更强(r平方0.27)。 我对统计信息了解不多,因此这里有几个问题: 这是有效的统计方法吗? 有没有找到最佳箱数的方法? 这种方法的正确用语是什么,以便我可以使用Google? 有哪些入门资源可用于学习这种方法? 我可以使用哪些其他方法来查找此数据中的关系? 这是十进制数据供参考:https : //gist.github.com/georgeu2000/81a907dc5e3b7952bc90 编辑:这是数据的图像: 行业动量是自变量,入口点质量是因变量

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.