正交,相关和独立之间的关系是什么?


25

我读过一篇文章说,当使用计划的对比来发现均方差不同的均值时,对比度应该是正交的,以使它们不相关并防止I型错误被夸大。

我不明白为什么正交在任何情况下都意味着不相关。我找不到直观/直观的解释,所以我试图理解这些文章/答案

https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf

在统计方面正交是什么意思?

但是对我来说,他们彼此矛盾。第一个说法是,如果两个变量不相关和/或正交,则它们是线性独立的,但是它们线性独立的事实并不意味着它们是不相关和/或正交的。

现在在第二个链接上有回答,指出诸如“正交意味着不相关”和“如果X和Y是独立的,则它们是正交的。但是反之则不成立”之类的答案。

在第二个链接中,另一个有趣的评论指出,两个变量之间的相关系数等于对应于这些变量的两个向量之间的夹角的余弦值,这意味着两个正交向量是完全不相关的(这与第一篇文章无关)索赔)。

那么独立性,正交性和相关性之间的真正关系是什么?也许我错过了一些东西,但我找不到它。


1
该问题右侧显示为“已链接”和“相关”的问题的答案都没有让您满意吗?
Dilip Sarwate 2015年

2
我提供的两个链接似乎提供了可靠的答案,但陈述了不同的内容,当我看相关问题时,我可以看到给出答案的人们彼此之间相距甚远
Carl Levasseur

2
混淆/感知的矛盾可能完全是由于线性独立性和统计独立性之间的差异。
乔纳2015年

1
我认为(ANOVA)解释器应该正交是这个问题的重要方面:这不仅与随机变量有关。与西安建议作为一个可能重复的密切相关的问题相比,还特别强调了“独立性”(在该问题中,OP表示他们理解“独立性”,因此答案中的大部分内容都是理所当然的)。因此,我建议这不是重复的,其次,@ jona可能会将混淆混淆为“独立”的多种含义。
银鱼

1
我也相信这不是重复的。这个问题不涉及相关性,答案也没有详细说明正交性和不相关性之间的可能差异。而且,正如张贴者所指出的,对不同的相关问题给出了矛盾的答案。
A. Donda

Answers:


39

独立是一个统计概念。如果两个随机变量 和的联合分布是边际分布的乘积,则它们在统计上是独立的,即 如果每个变量的密度为,或更笼统地说是 ,其中表示每个随机变量的累积分布函数。Y f x y = f x f y f F x y = F x F y FXY

f(x,y)=f(x)f(y)
f
F(x,y)=F(x)F(y)
F

相关性是一个较弱但相关的统计概念。两个随机变量的(皮尔逊)相关性是标准化变量乘积的期望值,即 如果则 变量不相关。可以证明,两个独立的随机变量不一定是相关的,反之亦然。

ρ=E[XE[X]E[(XE[X])2]YE[Y]E[(YE[Y])2]].
ρ=0

正交性是起源于几何的概念,并在线性代数和数学的相关领域中得到了概括。在线性代数中,两个向量和正交性在内部乘积空间(即具有内部乘积向量空间)中定义为 。可以用不同的方式定义(导致不同的内部积空间)。如果向量以数字序列形式给出,,那么典型的选择是点积v ü v ü v = 0 Ü = Û 1ü 2... Ú Ñü v = Σ Ñ = 1 ü v uvu,v

u,v=0.
u=(u1,u2,un)u,v=i=1nuivi

因此,正交性本身并不是一个统计概念,并且您观察到的困惑很可能是由于线性代数概念到统计的不同翻译:

a)形式上,可以将随机变量空间视为向量空间。这样就可以以不同的方式在该空间中定义内部产品。一种常见的选择是将其定义为协方差: 由于两个随机变量的相关性恰好在协方差为零的情况下为零,因此根据此定义,不相关性与正交性相同。(另一种可能性是将随机变量的内积简单地定义为乘积的期望值。)

X,Y=cov(X,Y)=E[(XE[X])(YE[Y])].

b)并非我们在统计考虑的所有变量都是随机变量。尤其是在线性回归中,我们有独立变量,这些变量不是随机变量而是预定义变量。自变量通常以数字序列形式给出,其正交性由点积自然定义(请参见上文)。然后,我们可以研究自变量正交或不正交的回归模型的统计结果。在这种情况下,正交性没有明确的统计定义,甚至还没有:它不适用于随机变量。

另外回应了Silverfish的评论:正交性不仅与原始回归变量相关,而且与对比度相关,因为简单的对比(由对比矢量指定)的集合(可以看作是设计矩阵的转换,即集合)将自变量转换为一组新的自变量。对比度的正交性是通过点积定义的。如果原始回归变量相互正交,并且应用正交对比,则新回归变量也相互正交。这确保了对比集可以视为描述方差的分解,例如分解为主要影响和相互作用,这是ANOVA的基础。

由于根据变体a),不相关性和正交性只是同一事物的不同名称,在我看来,最好避免使用该意义的术语。如果我们要谈论随机变量的不相关性,那就这么说,不要通过使用具有不同背景和不同含义的另一个单词来使问题复杂化。这也释放了根据变式b)使用的术语正交性,这在讨论多元回归时特别有用。反之,我们应该避免将术语“相关性”应用于自变量,因为它们不是随机变量。


Rodgers等人的陈述在很大程度上与这种观点一致,特别是因为他们理解正交性与不相关性是不同的。但是,它们确实将术语“相关性”应用于非随机变量(数字序列)。这仅在统计上关于样本相关系数 是有意义的。我仍然建议避免使用该术语,除非将数字序列视为随机变量的实现序列。r

在上面的文本中,我分散了两个相关问题的答案的链接,这应该有助于您将它们放入此答案的上下文中。


1
+1您在这里所做的区分非常清楚而且很有帮助-我很喜欢阅读整篇文章。
ub

+1我喜欢您如何将其他答案结合在一起,否则这些答案似乎是矛盾的。也许在(b)部分中,特别提到一些有关实验设计或ANOVA的内容会很高兴(因为在OP的问题中已经提到)-在您回答的问题中,为什么“正交性”可能会很有趣还不是很明显或确实是自变量的理想属性。
Silverfish

@Silverfish,您是对的,我会尝试添加。
A. Donda

2
我谨与胡伯的赞美言论有所不同。独立性的定义令人恐惧:似乎暗示随机变量和具有相同的累积概率分布函数(CDF或cdf),在此用。不,和并不表示和的不同 CDF 。是实变量的实值函数,而和表示此函数在数字和处的值Y F F x F y X Y F F x F y x y F X Yx y = F Xx F Yy 对所有X ÿ - < X XYF()F(x)F(y)XYF()F(x)F(y)xy。正确的措词应为
FX,Y(x,y)=FX(x)FY(y) for all x and y,<x,y<.
Dilip Sarwate

2
@ DilipSarwate,puh-lease ...
A. Donda

0

这是我的直觉观点:陈述x和y不相关/正交都是说x或y值的知识无法预测彼此的两种方式-x和y彼此独立-假设任何关系都是线性的。

相关系数提供了关于x(或y)的知识如何使我们能够预测y(或x)的指示。假设线性关系。

在一个平面中,沿着X轴的向量的大小可以改变,而无需沿着Y轴改变其分量-X和Y轴是正交的,沿着X的向量与沿着Y的任何向量都正交。不沿X方向移动,将导致X和Y分量均发生变化。向量不再与Y正交。

如果两个变量不相关,则它们是正交的;如果两个变量正交,则它们是不相关的。相关性和正交性是完全不同的,尽管表达线性独立性概念的等效方法(代数和几何)也是如此。作为类推,通过绘图(几何)和行列式(代数)考虑两个变量中的一对线性方程的解。

关于线性假设-令x为时间,令y为正弦函数。在一个周期内,使用用于计算两者的常用方法,x和y都是正交且不相关的。但是,x的知识使我们能够精确地预测y。线性是相关性和正交性的关键方面。

尽管不是问题的一部分,但我注意到相关性和非正交性不等于因果关系。x和y可以相关,因为它们都对第三变量有一定的依赖,可能是隐藏的。夏天冰淇淋的消费量增加,夏天人们经常去海滩。两者是相关的,但是两者都不“引起”。有关这一点的更多信息,请参见https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation


不相关和正交是不同的东西。您可以在此处检查-terpconnect.umd.edu/~bmomen/BIOM621/LineardepCorrOrthogonal.pdf
Yurii

0

关系为:如果X和Y不相关,则XE [X]与YE [Y]正交。

与独立无关,更强的是不相关的概念,即独立将导致不相关,(非)正交和(不)相关可以同时发生。 例

我是本学期概率的助教,所以我制作了一个关于独立性,相关性和正交性的简短视频。

https://youtu.be/s5lCl3aQ_A4

希望能帮助到你。


这不能回答问题。
Michael R. Chernick

我修改了答案,希望对您有所帮助〜@ Michael Chernick
linan huang

@linanhuang来自Larx的人吗?
YHH
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.