条件高斯分布背后的直觉是什么?


46

假设XN2(μ,Σ)。然后,给定X 2 = x 2的条件分布是均值的多元正态分布:X1X2=x2

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

和方差:

Var[P(X1|X2=x2)]=σ11σ122σ22

由于我们拥有更多信息,因此方差会减小是有道理的。但是平均公式背后的直觉是什么?X1之间的协方差如何X2影响条件均值?


2
是你的问题简单的“为什么不是平均的条件分布=的μ1 ”?
gung-恢复莫妮卡

@gung:这是真,如果x2=μ2。但是,为什么是σ11σ22参与?
eroeijr 2013年

3
在天然(“标准化的”)单元我们写Xi=μ1+σiZi其中σi=σii。在这些方面的条件分布是正常的E(Z1|Z2)=ρZ2ρ=σ12/(σ1σ2).事实|ρ|1被称为“均值回归”或“均值回归”:有这个一个广泛的技术和通俗文学要背130年。
ub

2
说,eroeijr,是您的帖子吗?(除了开头的“来宾”外,姓名有明显的相似之处。)如果是您的名字,则应要求合并两个帐户,并从积分中获得可观的奖励。
Glen_b

2
按照@Glen_b的建议,如果您有多个(未注册)帐户,请通过stats.stackexchange.com/contact填写表格,并要求将其合并。
chl

Answers:


57

概要

问题中的每个陈述都可以理解为椭圆的性质。特别是需要在二元正态分布特性的事实是,在一个标准的二元正态分布 -用于其XŸ不相关-的条件方差Ÿ不依赖于X。(这又是由于缺乏相关性暗示联合正态变量具有独立性这一事实的直接后果。)X,YXYYX

以下分析精确地显示了椭圆的性质,并以易于记忆的方式使用基本思想和最简单的算法推导了问题的所有方程。


圆对称分布

问题的分布是双变量正态分布族的成员。它们都是从基本成员标准双变量正态派生的,标准双变量正态描述了两个不相关的标准正态分布(形成了两个坐标)。

图1:标准双变量正态分布

左侧是标准双变量法线密度的浮雕图。右侧在伪3D中显示相同的内容,其中前部被切掉。

这是一个圆形对称分布的示例:密度随距中心点的距离而变化,而不随距该点的方向变化。因此,其图的轮廓(在右侧)是圆形。

但是,大多数其他双变量正态分布不是圆对称的:它们的横截面是椭圆形。这些椭圆模拟了许多双变量点云的特征形状。

图2:绘制的另一个二元正态分布

这些是具有协方差矩阵Σ = 1 2的双变量正态分布的肖像 它是用于与相关系数数据的模型-2/3Σ=(123231).2/3


如何创建椭圆

根据其最早的定义,椭圆是圆锥截面,它是一个因投影到另一个平面而变形的圆。通过考虑投影的性质,就像视觉艺术家一样,我们可以将其分解为一系列易于理解和计算的变形。

首先,沿着将成为椭圆长轴的方向拉伸(或挤压)圆,直到其为正确的长度:

步骤1:伸展

接下来,沿其短轴挤压(或拉伸)此椭圆:

步骤2:挤压

第三,将其绕其中心旋转到最终方向:

步骤3:旋转

最后,将其移至所需位置:

步骤4:转移

这些都是仿射变换。 (实际上,前三个是线性变换;最后的移位使其成为仿射。)由于仿射变换的组成(按定义)仍然是仿射的,因此从圆到最终椭圆的净失真是仿射变换。但这可能有些复杂:

复合转换

请注意椭圆(自然)轴发生了什么:通过移位和挤压创建椭圆后,它们(当然)随轴本身旋转并移动。即使这些轴未绘制,我们也很容易看到它们,因为它们是椭圆本身的对称轴。

xy1/2x

关键思想-有人敢说这是回归症结-是有一种方法可以使圆扭曲成椭圆形而无需旋转垂直线。因为旋转是罪魁祸首,所以让我们切入正题,展示如何创建旋转的椭圆而不实际看起来没有旋转任何东西

椭圆形偏斜

这是一个偏斜的转换。 实际上,它同时执行两项操作:

  • yλx

  • (x,y)xρ(x,y)(x,y+ρx)

xy=ρxy=x|ρ|1ρ

y=x

  • ρx(1,0)(1,ρ)

  • (ρ,1)

这是从哪里开始的?

  • x2+y2=1xρ(ρ,1ρ2)

  • (ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

(ρ,λ1ρ2+ρ2)=(ρ,1)λ=1ρ2ρ

ρ0, 3/10, 6/10,9/10,

画面

ρ


应用

我们准备进行回归。 进行回归的一种标准,优雅(但很简单)的方法是首先以新的度量单位表示原始变量:我们将它们以均值为中心,并以其标准偏差作为单位。这会将分布的中心移到原点,并使所有椭圆轮廓倾斜45度(向上或向下)。

x0x0y1ρ2ρxρxx

  • y0

  • ρxxρxy=ρx

xy=ρx

x

我们可以轻松地说出更多:

  • (X,Y)Y|X(1ρ2)2=1ρ2

  • 1ρ2ρx

1x1ρ2

ρΣXYXYXY(X,Y)

ε=YρX

ε0Y0ρXρX

3D图显示条件分布和最小二乘法线

xρ=1/2

所以

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

X1XεX(ε)ε0

ρXY


结论

x(X,Y)xyμxμyσxσy

  • (μx,μy)

  • {(x,ρx)},

  • ρσyρ/σx

因此,回归线的等式为

y=σyρσx(xμx)+μy.
  • Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

Y|X1

  • Σσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

技术说明

y

(1ρρ1)=AA

哪里

A=(10ρ1ρ2).

众所周知的平方根是最初描述的平方根(涉及旋转而不是偏斜变换)。它是由奇异值分解产生的结果,在主成分分析(PCA)中起着重要作用:

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

Q=(12121212)45

因此,PCA和回归之间的区别归结为相关矩阵的两个特殊平方根之间的差异。


1
美丽的图画和出色的描述。更新中有一些句子不完整(例如您基本上知道您要说的话,但尚未决定最后的措辞)。
2013年

1
@红衣主教谢谢。我将重新阅读并寻找这些东西以及不可避免的错别字。您太客气了,无法指出您肯定注意到的其他事项,例如博览会中的一些空白。最大的问题是,我并未真正表明这些椭圆呈45度角(等效地,刻在单位平方中)。我只是以为。我仍在寻找一个简单的示范。另一个问题是,人们可能会担心歪斜变换会产生与原始拉伸-挤压-旋转-移位不同的分布,但是很容易证明它不会。
Whuber

3
真的很有趣。感谢您抽出宝贵的时间来编写它。
比尔

在应用程序的第一段中写道:“我们以它们的平均值为中心,并以它们的标准偏差为单位。这会将分布的中心移到原点,并使所有椭圆轮廓倾斜45度”,但我没有不了解如何以变量为中心将变量的中心移至原点并将它们对齐45度?
Kaushal18年

@whuber,当您从单位圆(标准化样本集)开始时,您说相关性为0,所以我想,我们得到一个像的圆f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)

21

YX=xiXX1X20X2x1您正在“剖析”多元分布的地方。考虑下图:

在此处输入图片说明

X1X2X2X1μX2|X1=25μX2|X1=45

σ22ΣX2σ2σ

y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

如果您使用更多变量会怎样?您只需从均值和方差中添加或减去额外的项?

2
YXy^i=Xiβ^β^=(XTX)1XTY

您用什么来生成图形?Mathematica?
mpiktas

@mpiktas,我的图表还是胡扯?我相信他是数学,但我做了上述W / R。(丑陋的代码,虽然...)之一
恢复莫妮卡-呱

1
@mpiktas,我无法想象我的代码应该被描述为“很棒” ...正常的曲线是用w /绘制的dnorm(y)。我只是将输出添加到2545,&用作x
gung-恢复莫妮卡

3

X1X2σ1,2>0X2X2X1X1

X2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2E{X1|X2=x2}>μ1

X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

x2μ2σ12/σ22

1
x2>μ2E(X1|X2=x2)<μ1σ1,2>0

1
“直觉”并不意味着“非量化”:两者可以并存。通常很难找到给出定量结果的直观论证,但是经常可以做到,发现这种论证的过程总是很有启发性。
ub

关于最后一段:我发现正态分布不是那么特殊:通过圆对称分布的仿射变换创建的族是特殊的族(其中有很多)。
ub

@whuber这很有趣。你有链接或引用吗?
条例草案
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.