Questions tagged «r-squared»

确定系数通常用,是总响应方差的比例,由回归模型解释。也可以用于建议的各种伪R平方,例如用于逻辑回归(和其他模型)。 R2

3
相关性或确定系数是否与沿回归线下降的值的百分比相关?
相关是两个变量之间线性关联的度量。确定系数r 2是一个变量的可变性可以由另一个变量的“解释”的量度。[Rrr[R2r2r^2 例如,如果是两个变量之间的相关性,则r 2 = 0.64。因此,一个方面的差异的64%可以通过另一个方面的差异来解释。对?r = 0.8r=0.8r = 0.8[R2= 0.64r2=0.64r^2 = 0.64 对于上述示例,我的问题是,以下任一陈述正确吗? 64%的值沿着回归线下降 80%的值沿着回归线下降

1
为什么对
这可能是一个基本问题,但我想知道为什么可以简单地对回归模型中的值求平方以给出一个解释方差图?[RRR 我知道系数可以增强关系的强度,但是我不了解如何简单地平方该值即可说明所解释的方差。[RRR 有什么简单的解释吗? 非常感谢您的帮助!

3
基于诊断指标( / AUC /精度/ RMSE等)的值,我的模型是否还好?
我已经安装好模型,并试图了解它是否有好处。我已经计算出推荐的指标进行评估( / AUC /准确性/预测误差等),但不知道如何解释它们。简而言之,如何根据指标判断我的模型是否良好?例如,为0.6是否足以让我继续进行推断或做出科学/商业决策?[R2R2R^2[R2R2R^2 这个问题是有意的,涵盖了会员经常遇到的各种情况;这样的问题可以作为此问题的副本来解决。欢迎进行修改以扩大范围,使其超出此处提到的指标,还有其他答案-尤其是那些提供有关其他类别指标的见解的答案。




1
在时间序列模型中使用R平方有什么问题?
我已经读过,对时间序列使用R平方是不合适的,因为在时间序列上下文中(我知道还有其他上下文),R平方不再是唯一的。为什么是这样?我试图进行查找,但没有找到任何东西。通常,在评估模型时,我不会对R平方(或调整R平方)进行任何评估,但是我的许多同事(例如,商务专业)绝对喜欢R平方,因此我希望能够向他们解释为什么R-Squared在时间序列的背景下不合适。

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
添加线性回归预测变量可减小R平方
我的数据集()具有因变量(DV),五个独立的“基准”变量(P1,P2,P3,P4,P5)和一个独立的关注变量(Q)。N≈10,000N≈10,000N \approx 10,000 我为以下两个模型运行了OLS线性回归: DV ~ 1 + P1 + P2 + P3 + P4 + P5 -> R-squared = 0.125 DV ~ 1 + P1 + P2 + P3 + P4 + P5 + Q -> R-squared = 0.124 即,添加预测变量Q减少了线性模型中解释的方差量。据我了解,这不应该发生。 明确地说,这些是R平方值,而不是调整后的R平方值。 我已经使用Jasp和Python的statsmodels验证了R平方值。 有什么理由可以看到这种现象吗?也许与OLS方法有关的东西?

1
为什么我们不能使用
假设我们有一个线性回归模型,其因变量。我们发现它的。现在,我们进行另一个回归,但是这次是在,类似地找到它的。有人告诉我,我无法将两个进行比较,以查看哪种模型更合适。这是为什么?给我的原因是,我们将比较不同数量(不同因变量)的可变性。我不确定这是否是充分的理由。R 2 y log (y )R 2 log (y ) R 2yyyR2yRy2R^2_ylog(y)log⁡(y)\log(y)R2log(y)Rlog⁡(y)2R^2_{\log(y)}R2R2R^2 还有办法使它正式化吗? 任何帮助,将不胜感激。

1
如何计算出样本R平方?
我知道这可能已经在其他地方讨论过了,但是我还没有找到明确的答案。我正在尝试使用公式计算线性回归模型的样本外,其中是残差平方的总和,而是平方总和。对于训练集,很明显R 2 S S R S S T[R2= 1 - S小号[R /小号小号Ť[R2=1个-小号小号[R/小号小号ŤR^2 = 1 - SSR/SST[R2[R2R^2小号小号[R小号小号[RSSR小号小号Ť小号小号ŤSST 小号小号Ť= ∑(y- ÿ¯吨ř 一个我Ñ)2小号小号Ť=Σ(ÿ-ÿ¯Ť[R一个一世ñ)2 SST = \Sigma (y - \bar{y}_{train})^2 那测试集呢?我应该继续使用来代替样本还是使用?ý ˉ ý吨Ë小号吨ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}ÿÿyÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test} 我发现如果我使用,则有时生成的可能为负。这与sklearn 函数的描述一致,他们使用(他们的linear_model 函数也使用它来测试样本)。他们指出“不管输入特征如何,始终预测y期望值的恒定模型将获得0.0的R ^ 2得分。”- [R2 ˉ ý吨Ë小号吨ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}[R2[R2R^2r2_score()ÿ¯牛逼Ë 小号ŧÿ¯ŤËsŤ\bar{y}_{test}score() 但是,在其他地方,人们喜欢在这里和这里使用(dmi3kno的第二个答案)。所以我想知道哪个更有意义?任何评论将不胜感激!ÿ¯吨ř 一个我Ñÿ¯Ť[R一个一世ñ\bar{y}_{train}


2
是否有一种优雅/有见地的方式来理解多个对象的线性回归身份
在线性回归中,我遇到了一个令人愉快的结果:如果我们拟合模型 E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, 然后,如果我们标准化并居中 YYY, X1X1X_1 和 X2X2X_2 数据, R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2. 在我看来,这就像是2个变量的版本 R2=Cor(Y,X)2R2=Cor(Y,X)2R^2 = \mathrm{Cor}(Y,X)^2 对于 y=mx+cy=mx+cy=mx+c 回归,这是令人愉快的。 但是,我所知道的唯一证据无论如何都不具有建设性或洞察力(请参阅下文),但纵观它,似乎应该容易理解。 范例想法: 的 β1β1\beta_1 和 β2β2\beta_2 参数给我们的“比例” X1X1X_1 和 X2X2X_2 在 YYY,因此我们采用各自比例的相关性... 的 ββ\betas是偏相关, R2R2R^2 是平方多重相关...相关乘以部分相关... 如果我们先正交化,那么 ββ\betas将是 Cov/VarCov/Var\mathrm{Cov}/\mathrm{Var}...这个结果在某种程度上讲几何意义吗? …

5
使用十分位找到相关性是一种统计上有效的方法吗?
我有一个1,449个不相关的数据点的样本(r平方0.006)。 在分析数据时,我发现通过将自变量值分为正向和负向组,每组因变量的平均值似乎存在显着差异。 使用自变量值将点分成10个bin(十分位数),十分位数与平均因变量值之间的相关性似乎更强(r平方0.27)。 我对统计信息了解不多,因此这里有几个问题: 这是有效的统计方法吗? 有没有找到最佳箱数的方法? 这种方法的正确用语是什么,以便我可以使用Google? 有哪些入门资源可用于学习这种方法? 我可以使用哪些其他方法来查找此数据中的关系? 这是十进制数据供参考:https : //gist.github.com/georgeu2000/81a907dc5e3b7952bc90 编辑:这是数据的图像: 行业动量是自变量,入口点质量是因变量

3
可能范围
假设三个时间序列,和X1X1X_1X2X2X_2YYY 上运行的普通线性回归〜(),我们得到。普通的线性回归〜得到。假设YYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU&lt;VU&lt;VU < V 什么是最小和最大的可能值上回归〜()?R2R2R^2YYYX1+X2X1+X2X_1 + X_2Y=b1X1+b2X2+b0+ϵY=b1X1+b2X2+b0+ϵY = b_1 X_1 + b_2 X_2 + b_0 + \epsilon 我相信最小应该是 +一个小值,因为添加新变量总是会增加,但是我不知道如何量化这个小值,也不知道如何获得最大范围。R2R2R^2VVVR2R2R^2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.