Answers:
从变化的基本思想开始。您的初始模型是与均值的平方偏差之和。R ^ 2值是使用替代模型说明的该变化的比例。例如,R平方告诉您可以通过求和与回归线的平方距离而不是平均值来消除Y的变化量。
如果我们考虑绘制出的简单回归问题,我认为这很清楚。考虑一个典型的散点图,您在水平轴上有一个预测变量X,在垂直轴上有一个响应Y。
平均值是图上的水平线,其中Y为常数。Y的总变化是Y的平均值与每个数据点之间的平方差之和。它是平均线与每个单独点之间的距离的平方并累加起来。
从模型获得回归线后,您还可以计算另一种可变性度量。这是每个Y点和回归线之间的差。而不是每个(Y-均方)平方,而是得到(Y-回归线上的点)平方。
如果回归线不是水平线,那么使用此拟合的回归线而不是平均值时,总距离会更少,这就是无法解释的变化少了。说明的额外变化量与原始变化量之比为R ^ 2。这是您的回复中原始变化的比例,可以通过拟合该回归线来解释。
这是图形的一些R代码,其均值,回归线以及从回归线到每个点的分段有助于可视化:
library(ggplot2)
data(faithful)
plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean)
linefit1 <- lm(eruptions ~ waiting, data = plotdata)
plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0
p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )
p + geom_point(shape = 1, size = 3) +
geom_smooth(method=lm, se=FALSE) +
geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),
data = plotdata) +
theme(legend.position="none") +
geom_hline(yintercept = mean(plotdata$eruptions), size = 1)
两者之间的关系的数学证明如下:Pearson相关性和最小二乘回归分析。
我不确定除数学之外是否可以提供几何或其他任何直觉,但如果我能想到一个,我将更新此答案。
更新:几何直觉
替代文字http://a.imageshack.us/img202/669/linearregression1.png
根据毕达哥拉斯定理,我们有:
因此,我们具有所需的关系:
希望能有所帮助。