确定系数(


21

我想完全理解描述变量之间变化量的的概念。每个网络的解释都有些机械和晦涩。我想“理解”这个概念,而不仅仅是机械地使用数字。r2

例如:学习时数与考试成绩

= 0.8r

= .64r2

  • 那么这是什么意思?
  • 考试成绩变异性的64%可以用小时来解释吗?
  • 我们怎么知道只是平方呢?

您的问题不是关于R与R平方(您知道),而是关于r 2的解释。请重新命名标题。0.82=0.64r2
罗宾吉拉德


@amoeba同意,我拉了标签。
Brett

您需要来确定重要性。另请参阅stats.stackexchange.com/a/265924/99274n
卡尔

Answers:


27

从变化的基本思想开始。您的初始模型是与均值的平方偏差之和。R ^ 2值是使用替代模型说明的该变化的比例。例如,R平方告诉您可以通过求和与回归线的平方距离而不是平均值来消除Y的变化量。

如果我们考虑绘制出的简单回归问题,我认为这很清楚。考虑一个典型的散点图,您在水平轴上有一个预测变量X,在垂直轴上有一个响应Y。

平均值是图上的水平线,其中Y为常数。Y的总变化是Y的平均值与每个数据点之间的平方差之和。它是平均线与每个单独点之间的距离的平方并累加起来。

从模型获得回归线后,您还可以计算另一种可变性度量。这是每个Y点和回归线之间的差。而不是每个(Y-均方)平方,而是得到(Y-回归线上的点)平方。

如果回归线不是水平线,那么使用此拟合的回归线而不是平均值时,总距离会更少,这就是无法解释的变化少了。说明的额外变化量与原始变化量之比为R ^ 2。这是您的回复中原始变化的比例,可以通过拟合该回归线来解释。

在此处输入图片说明

这是图形的一些R代码,其均值,回归线以及从回归线到每个点的分段有助于可视化:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

>解释的变体与原始变体之间的比率是您的R ^ 2让我们看看我是否明白这一点。如果原始平均值的平均值变化为100,而回归平均值的平均值为20,则比率= 20/100 = .2您说的是R ^ 2 = .2 b / c占平均值的20%(红色)通过解释的变化(绿色)得到(在r = 1的情况下)如果原始变化总计为50,而回归变化总计为0,则比率= 0/50 = 0 =相对于平均值的变化的0%(红色)是占由解释变差(绿色),我期望R ^ 2为1,不为0。
JackOfAll

1
R ^ 2 = 1-(SSR / SST)或(SST-SSR)/ SST。因此,在您的示例中,R ^ 2 = .80和1.00。回归线和每个点之间的差异在于拟合未解释。剩下的就是解释的比例。否则,那是完全正确的。
布雷特

我编辑了最后一段,以使其更加清晰。从概念上(和计算上)您所需要的就在那里。实际添加公式并参考SST SSE和SSR可能会更清楚,但后来我试图从概念上进行理解
Brett 2010年

即:R ^ 2是相对于均值(SST)的总变化的比例,即期望回归值和均值(SSE)的差b / w。在我的小时数与分数的示例中,回归值将是基于与研究时数的相关性而得出的预期测试分数。除此之外的任何其他变化都归因于SSR。对于给定的点,研究小时数的变量/回归解释了相对于平均值(SST)的总变化的x%。具有较高的r值,与SSR相比,“解释”是SST的很大一部分。r值较低时,“解释”是SST的百分比低于SSR。
JackOfAll 2010年

@BrettMagill,我认为该图片的链接已损坏...
Garrett

6

两者之间的关系的数学证明如下:Pearson相关性和最小二乘回归分析

我不确定除数学之外是否可以提供几何或其他任何直觉,但如果我能想到一个,我将更新此答案。

更新:几何直觉

xyy

y=x β+ϵ

y1,y2x1,x2

替代文字http://a.imageshack.us/img202/669/linearregression1.png

βx βyβxβ^βyy^=x β^

y=y^+ϵ^

yy^ϵ^β^

βx βϵ^

yyxyy12+y22yy^y^

根据毕达哥拉斯定理,我们有:

y2=y^2+ϵ^2

xy^2y2cos(θ)=y^y

因此,我们具有所需的关系:

yx

希望能有所帮助。


我非常感谢您为您提供帮助的尝试,但不幸的是,这只会使事情恶化10倍。您是否真的引入三角学来解释r ^ 2?你太聪明了,不能当好老师!
JackOfAll

我以为您想知道为什么相关^ 2 = R ^ 2。在任何情况下,理解同一概念的不同方式都会有所帮助或至少是我的观点。

3

回归到眼睛的小程序可以使用的,如果你想开发一些直觉。

它使您可以生成数据,然后猜测R的值,然后可以将其与实际值进行比较。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.