我理解它的意思是该模型在预测单个数据点方面不好,但是已经建立了稳固的趋势(例如,当x上升时y上升)。
我理解它的意思是该模型在预测单个数据点方面不好,但是已经建立了稳固的趋势(例如,当x上升时y上升)。
Answers:
这意味着“不可减少的误差很高”,即,我们能做的最好的事情(对于线性模型)是有限的。例如,以下数据集:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
注意,此数据集中的技巧是给定一个值,存在太多不同的y值,因此我们无法做出令人满意的预测来满足所有这些值。同时,x和y之间存在“强”线性相关。如果我们拟合线性模型,我们将获得显着系数,但R平方低。
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
线性回归在统计上显着但具有非常低的r平方是什么意思?
这意味着自变量和因变量之间存在线性关系,但是这种关系可能不值得一提。
但是,这种关系的意义在很大程度上取决于您要检查的内容,但总的来说,您可以认为它的意义不应该将统计意义与相关性相混淆。
如果样本量足够大,则即使是最琐碎的关系也可以被视为具有统计意义。
措辞的另一种方式是,它意味着您可以自信地预测总体水平的变化,而不是个人水平的变化。也就是说,单个数据差异很大,但是当使用足够大的样本时,总体上可以看到潜在的影响。这是一些政府健康建议对个人无益的原因之一。政府有时会觉得有必要采取行动,因为他们可以看到更多的活动导致总体上更多的死亡。他们提出建议或政策来“挽救”这些生命。但是,由于个人反应的差异很大,因此个人不太可能会看到任何好处(或者更糟的是,由于特定的遗传条件,听从相反的建议实际上会改善他们自己的健康,但这隐藏在人口聚集中)。如果个人从“不健康”的活动中获得收益(例如,享乐),则遵循建议可能意味着他们一生都放弃了这种确定的享乐,但实际上并没有亲自改变是否会遭受这种状况的折磨。