假设。然后,给定X 2 = x 2的的条件分布是均值的多元正态分布:
和方差:
由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?和之间的协方差如何影响条件均值?
假设。然后,给定X 2 = x 2的的条件分布是均值的多元正态分布:
和方差:
由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?和之间的协方差如何影响条件均值?
Answers:
问题中的每个陈述都可以理解为椭圆的性质。 该只特别是需要在二元正态分布特性的事实是,在一个标准的二元正态分布 -用于其X和Ÿ不相关-的条件方差Ÿ不依赖于X。(这又是由于缺乏相关性暗示联合正态变量具有独立性这一事实的直接后果。)
以下分析精确地显示了椭圆的性质,并以易于记忆的方式使用基本思想和最简单的算法推导了问题的所有方程。
问题的分布是双变量正态分布族的成员。它们都是从基本成员标准双变量正态派生的,标准双变量正态描述了两个不相关的标准正态分布(形成了两个坐标)。
左侧是标准双变量法线密度的浮雕图。右侧在伪3D中显示相同的内容,其中前部被切掉。
这是一个圆形对称分布的示例:密度随距中心点的距离而变化,而不随距该点的方向变化。因此,其图的轮廓(在右侧)是圆形。
但是,大多数其他双变量正态分布不是圆对称的:它们的横截面是椭圆形。这些椭圆模拟了许多双变量点云的特征形状。
这些是具有协方差矩阵Σ = (1 − 2的双变量正态分布的肖像 它是用于与相关系数数据的模型-2/3。
根据其最早的定义,椭圆是圆锥截面,它是一个因投影到另一个平面而变形的圆。通过考虑投影的性质,就像视觉艺术家一样,我们可以将其分解为一系列易于理解和计算的变形。
首先,沿着将成为椭圆长轴的方向拉伸(或挤压)圆,直到其为正确的长度:
接下来,沿其短轴挤压(或拉伸)此椭圆:
第三,将其绕其中心旋转到最终方向:
最后,将其移至所需位置:
这些都是仿射变换。 (实际上,前三个是线性变换;最后的移位使其成为仿射。)由于仿射变换的组成(按定义)仍然是仿射的,因此从圆到最终椭圆的净失真是仿射变换。但这可能有些复杂:
请注意椭圆(自然)轴发生了什么:通过移位和挤压创建椭圆后,它们(当然)随轴本身旋转并移动。即使这些轴未绘制,我们也很容易看到它们,因为它们是椭圆本身的对称轴。
关键思想-有人敢说这是回归的症结-是有一种方法可以使圆扭曲成椭圆形而无需旋转垂直线。因为旋转是罪魁祸首,所以让我们切入正题,展示如何创建旋转的椭圆而不实际看起来没有旋转任何东西!
这是一个偏斜的转换。 实际上,它同时执行两项操作:
这是从哪里开始的?
我们准备进行回归。 进行回归的一种标准,优雅(但很简单)的方法是首先以新的度量单位表示原始变量:我们将它们以均值为中心,并以其标准偏差作为单位。这会将分布的中心移到原点,并使所有椭圆轮廓倾斜45度(向上或向下)。
我们可以轻松地说出更多:
所以
因此,回归线的等式为
哪里
众所周知的平方根是最初描述的平方根(涉及旋转而不是偏斜变换)。它是由奇异值分解产生的结果,在主成分分析(PCA)中起着重要作用:
因此,PCA和回归之间的区别归结为相关矩阵的两个特殊平方根之间的差异。
您正在“剖析”多元分布的地方。考虑下图:
。
dnorm(y)
。我只是将输出添加到25
&45
,&用作x
。