Answers:
表示法似乎有所不同:在简单的线性回归中,我通常看到带有符号的短语“样本相关系数” 是对观察到的和值之间的相关性的引用。这是我为该答案所采用的符号。我还看到了相同的短语和符号,用于表示观察到的与拟合之间的关系。在我的回答我已提及此为“多重相关系数”和使用的符号。这个答案解决了为什么确定系数既是的平方又是的平方的原因ÿ - [R [R [R,因此使用哪种用法都没有关系。
一旦建立了一些有关相关性和含义的简单事实,结果就会出现在一行代数中,因此您可能更喜欢跳到盒式方程式。我假设我们不必证明协方差和方差的基本属性,尤其是: - [R
注意,一旦我们知道协方差是对称的并且,则后者可以从前者派生。从这里我们得出另一个有关关联的基本事实。对于,只要和方差不为零,a ≠ 0 X Y
这里是符号函数或符号函数:其值是,如果和如果。这也是事实,,如果,但这种情况下,不关注我们:将是一个常数,所以中分母,我们无法计算相关性。对称参数使我们对结果进行概括:sgn (a )= + 1 a > 0 sgn (a )= − 1 a < 0 sgn (a )= 0 a = 0 a X + b Var (a X + b )= 0 a ,
我们不需要这个更通用的公式来回答当前问题,但我将其包括在内是为了强调情况的几何形状:它只是指出当变量被缩放或转换时相关性保持不变,而当变量为0时其正负号相反。反映出来。
我们还需要一个事实:对于包含常数项的线性模型,确定系数是多重相关系数的平方,它是观测响应与模型拟合值之间的相关性。这适用于多元回归和简单回归,但让我们将注意力集中在简单线性模型。来自观察,其结果如下被缩放,可能反射,并翻译的版本: - [R Ŷ Ŷ Ŷ = β 0 + β 1 X ÿ X
因此,,其中符号与估计斜率的符号匹配,从而保证不会为负。显然。R R 2 = r 2
通过不必考虑平方和,使前面的论点变得更简单。为了实现这一目标,我跳过之间的关系的细节,这是我们通常认为的平方和的条款,,为此我们思考的厨房和观察到的反应相关。这些符号使关系似乎是重言式的,但事实并非如此,如果模型中没有拦截项,则关系会破裂!我给一个的梗概约之间的关系几何参数和从一个不同的问题采取:该图显示在绘制维对象空间 R R 2 = (R )2 R R 2 n X 1 n,因此每个轴(未显示)代表一个观察单位,变量显示为向量。设计矩阵是向量(对于常数项)和解释变量的观测向量,因此列空间是二维平面。
拟合的是观察到的在列空间上的正交投影。这意味着残差向量垂直于平面,因此垂直于。点积为。由于残差总和为零,并且,则以便拟观察到响应均值。图中的虚线和 ÿXë=ÿ - ÿ 1ñ0=1ñ⋅Ë=Σ Ñ 我= 1 Ë我Ŷ我= ^ ÿ 我 +ë我Σ Ñ 我= 1 Ÿ我=Σ Ñ 我= 1 ^ ÿ 我 ˉ ÿ ÿ- ˉ ý 1ñ ÿ θ ř因此,不在中心所观察到的和拟合的响应矢量,角度的余弦它们之间是其相关性。
这些矢量与残差矢量形成的三角形是直角的,因为位于平坦的位置,但是 与它正交。应用毕达哥拉斯:Ë
这只是平方和的分解,。确定系数的常规公式为在此三角形中为的确是的平方。您可能更熟悉公式,该立即给出,但请注意较为笼统,并将(如我们刚刚看到的)减少为 1 - S S 残差 1-罪2θ=COS2θ- [R[R2=小号小号回归 COS2θ1-小号š残余 SS回归 如果模型中包含常数项。