如果关节分布是多元正态分布,为什么Pearson'sρ只是联系的穷举?


Answers:


15

最好理解多变量分布中的“关联度量”,使其包含所有属性,这些属性在任意重新缩放和重新设置值时保持不变。这样做可以将均值和方差更改为任何理论上允许的值(方差必须为正;均值可以是任何值)。

然后,相关系数(“皮尔森 ”)完全确定多元正态分布。一种查看方式是查看任何公式定义,例如密度函数或特征函数的公式。它们涉及均值,方差和协方差-但是当您知道方差时,可以互相推导协方差和相关性。ρ

多元正态族不是拥有此属性的唯一分布族。例如,任何多元t分布(自由度超过)都具有定义明确的相关矩阵,并且也完全由其前两个矩确定。2


我是否正确,根据您在此处使用的定义,协方差不会衡量关联?因为它会随着方差的扩大而扩大。
user1205901-恢复莫妮卡2015年

2
那是对的。尽管协方差显然与一种关联度量有关,但它本身并不是一种关联,因为它也受其他因素的影响。
ub

19

变量可以通过Pearson相关完全不可见的方式进行关联。

ρxyz

在此处输入图片说明

这是关联但不关联的变量的另一个示例:

在此处输入图片说明

(即使我在这里用数据说明了分布,也正对分布进行了说明。)

即使变量之间具有相关性,Pearson相关性通常也不会告诉您如何 -您可以得到具有相同Pearson相关性的非常不同的关联形式(但是当变量为多变量正态时,我告诉您您可以确切地说出标准化变量之间的相关性)。

ρ

(解决多变量关联的常见方法是通过copula。网站上有许多与copula相关的问题;您可能会发现其中一些有用的问题)


是否存在具有此类分布的现实世界数据?

@what什至有什至从正态分布中提取的现实世界数据?我对此表示怀疑,因此(因为我的边际在图中都是正常的)会立即使答案为“否”。示例的目的是清楚地说明为什么随机变量之间的关联不像有时所假设的那么简单(人们多久计算一次皮尔逊相关性以测量关联?经常),并指出具有正常的边距并且是多元的正常是不同的。皮尔逊相关性无法捕获正在发生的事情的非常真实的例子肯定会发生。
Glen_b-恢复莫妮卡

让我们暂时不讨论发行版。当我们从点云计算相关性时,我们假设一个潜在的“几何形状”(线性,双曲线,对数,正弦等)理想的相关性,云中的点由于某些“错误”而偏离。现在,我看到的所有理想形状都是从真实数据中抽象出来的,这些数据是连续的(无间断)并且始终沿至少一个轴(例如,不是圆形的)增加。我对数据的了解是有限的,所以我想知道实际上是否存在相关性不连续或循环的现实世界数据。

例如,可能有数据显示,如果我进行绘制,它将看起来像两个点云。如果我盲目地计算这些数据的相关性,我可能会发现一个相关性,而(或有人告诉我)该图清楚地表明我缺少一些未知的混淆变量,如果我将其考虑在内,它将解决我的虚假关系。数据。如果我的教授查看您的“ x”或“ y”形示例,他会告诉我,我有两个截然不同的数据子集。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.