如何计算出样本R平方？

我知道这可能已经在其他地方讨论过了，但是我还没有找到明确的答案。我正在尝试使用公式计算线性回归模型的样本外，其中是残差平方的总和，而是平方总和。对于训练集，很明显 $R^2 = 1 - SSR/SST$ $R^2$ $SSR$ $SST$

小号 小号 Ť = Σ （ ÿ - {\bar{ÿ}}_{Ť [R 一个 一世 ñ} ）^{2}

$SST = \Sigma (y - \bar{y}_{train})^2$

那测试集呢？我应该继续使用来代替样本还是使用？ $\bar{y}_{train}$ $y$ $\bar{y}_{test}$

我发现如果我使用，则有时生成的可能为负。这与sklearn 函数的描述一致，他们使用（他们的linear_model 函数也使用它来测试样本）。他们指出“不管输入特征如何，始终预测y期望值的恒定模型将获得0.0的R ^ 2得分。” $\bar{y}_{test}$ $R^2$ r2_score() $\bar{y}_{test}$ score()

但是，在其他地方，人们喜欢在这里和这里使用（dmi3kno的第二个答案）。所以我想知道哪个更有意义？任何评论将不胜感激！ $\bar{y}_{train}$

— 疯狂的司机
source

你是对的。

OSR残差基于测试数据，但基线仍应为训练数据。这样说，您的SST为 ; 请注意，相同 $^2$ $SST=Σ(y−\bar y_{train})^2$ $R^2$

— 用户名
source

尽管我已修复了先前编辑中的一些明显错误和一些明显错误，但某些符号和某些预期含义仍然不清楚。

— 尼克·考克斯

感谢您的回答！您对此有参考吗？似乎stat软件通常使用y_test吗？

— Matifou

您对此有参考吗？当然，如果您将作为偏差的比较，那么就对可能性进行比较，我认为您是对的。但是，如果将作为解释方差的比例，则不会，因为平方的总和不会出现在任何地方。

R^{2}

$R^2$

R^{2}

$R^2$

— Firebug