为什么不能对比例数据进行皮尔逊相关?


10

我正在研究的一个在线模块指出,永远不要对比例数据使用Pearson相关。为什么不?

或者,如果有时可以还是总是可以,为什么?


3
这是什么意思?在什么情况下?除非他们谈论的是非常有限的情况,否则“永不”似乎太强了。也许是谁写的完全是错误的,但是如果没有上下文,我们怎么猜?
Glen_b-恢复莫妮卡2014年

2
在线模块是专有的,我无法链接它。但是,我发现一个录像带指出了同样的事情:australianbioinformatics.net/the-pipeline/2013/3/19/…。我看过的模块和此视频都表明没有可以接受相关比例的上下文。
user1205901-恢复莫妮卡2014年

4
“从不”太强了。在解释涉及比例的相关系数时要谨慎一些,尤其是那些基于小数的相关系数。但是,支持这些原因的相同分析也表明,当比例基于大量计数且比例与或 “足够远”时,相关系数就不会出现问题。此外,人们总是可以将任何一对配对数据(两个分量都表现出差异)的相关系数报告为摘要(描述性)统计量。01个
ub

Answers:


6

这是在每次观察中多个变量加在一起为1的情况。我的回答将是直觉级的;这是故意的(而且,我不是合成数据专家)。

让我们拥有iid(因此为零相关)正值变量,然后对其求和并重新计算为该总和的比例。然后,

  • 在有两个变量V1 V2的情况下,如果说V1自由变化,则V2没有自由空间(因为V1 + V2 =恒定),并且完全固定。V1越大,V2越小,V1越小,V2越大。它们之间的相关性只有而且一直如此。-1个
  • 在3个变量V1 V2 V3的情况下,如果说V1自由变化,则V2 + V3是固定的。也就是说,在内部(V2 + V3)中,两个变量中的每个变量仍然部分自由:它们平均 每个固定为倍,总共完全固定。因此,如果将三个变量中的任何一个视为自由变量(就像我们采用V1一样),那么其余两个变量中的任何一个都将被期望固定。因此它们之间的相关性是 。这是预期的相关性;它可能因样品而异。1个/21个/2-0.5
  • 出于相同的原因,在有四个变量V1 V2 V3 V4的情况下,如果我们将这四个变量中的任何一个视为免费,那么其余的任何一个都将固定为;如此,预期 任何一对的四个之间的相关性-因为不含一种其它如 1 / 3的固定-是- 0.3331个/31个/3-0.333
  • 随着(初始iid)变量的数量增加,预期的成对相关性从负值增加到,并且其在样本之间的差异也变大。0

可以,但是我想我们的兴趣在于对V1,V2,每个V的总和为1(100%),但是对每个V都没有约束,除了每个都是分数。
尼克·考克斯

each V summing to 1 ( 100%)劳驾?我不懂你 我没有对单个V施加任何约束,只是一个分数。但是,最初的约束是我的示例在将Vs转换为分数之前假设零相关。
ttnphns 2014年

您是说每个V的值总和为1(“垂直”)吗?不,我的意思是“横向”跨变量。但是不幸的是,OP没有阐明他们的问题的重点。所以我接受了它。
ttnphns 2014年

是; 我认为这通常是什么意思,但问题不是特别清楚。
尼克·考克斯

1
@ttnphns我看到一种说法,即永远不要对两个变量进行比例的Pearson相关。我试图通过编辑OP以突出显示“从不”一词来使其更加清晰。该视频的标题中有相同​​的陈述(“不要关联比例!”),尽管他们只是在成分数据的上下文中进行了讨论。我故意使上下文不确定,因为我的消息来源指出,在任何上下文中都不应在比例数据上使用Pearson相关。但是,似乎我的问题的答案是:“除某些情况外,相关比例很好。”
user1205901-恢复莫妮卡2014年

10

评论的视频链接将上下文设置为合成的上下文也可以称为混合。在这些情况下,每种成分的比例之和总计为1。例如,空气为78%的氮气,21%的氧气和1%的其他氮气(总计为100%)。假定一种成分的数量完全由另一种成分决定,则任何两种成分将具有理想的多线性关系。对于空中示例,我们有:

X1个+X2+X3=1个

因此:

X1个=1个-X2-X3

X2=1个-X1个-X3

X3=1个-X1个-X2

因此,如果您知道任何两个组件,则第三个组件将立即被知道。

通常,对混合物的约束是

一世=1个qX一世=1个

X一世

您可以计算两个组件之间的相关性,但不能提供信息,因为它们始终是相关的。您可以在分析按比例组成测量的数据中阅读有关组成分析的更多信息。

当比例数据来自不同域时,可以使用相关性。假设您的回应是LCD屏幕上的坏点像素。您可以尝试将其与屏幕化学处理步骤中使用的氦气比例相关。


我明白了-我错误地认为这些作品只是一个例子。因此,可以说公平的比例关联通常是没有问题的,除非您遇到成分“强制”存在关联的情况?
user1205901-恢复莫妮卡2014年

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship不清楚。你能扩大吗?
ttnphns 2014年

我也不明白这个答案。在您的3变量示例中,每个变量都由另外两个变量“确定”,但是Pearson相关仅分析一个变量与另一个变量的关系。因此,例如,如果查看氮气与氧气的关系,您可以拥有一个(氮气,氧气)数据集[(0.78,0.21),(0.20,0.41),(0.44,0.44)],并且您可以做一个有效的相关系数该数据的计算(当然不是共线性的)。皮尔逊相关系数不知道或不在乎“其他”……
Jason C

3
作为一种元注释,我不希望看到无法访问的材料被引用为任何统计点的权威,而不是您打算这样做。因此,从一个层面上讲它很简单:有一篇有关成分数据分析的文献可以在这里找到。我不是专家,所以我不能说什么是最相关的,但是我的直觉是警告被夸大了。描述性地使用相关性可能会有所帮助。只是由于总数的限制使得推论变得复杂。
尼克·考克斯

我认为,如果我们从具有相同像素数的LCD屏幕上收集测量数据,并且过程中的气压保持恒定,那么“坏点的分数”就可以了。但是一旦开始允许改变这些比例的分母,谁能说出氦的作用是什么?
David Lovell

5

这是一个很深的问题,有一些微妙之处需要说明。我会尽力而为,但是即使我已经发表了有关该主题的文章(比例性:相对数据的相关性的有效替代方法),我也总是对新的关于仅包含相对信息的数据分析的见解感到惊讶。

正如对此线程的贡献者所指出的那样,由于将相关性应用于一组成分被限制为一个常数的组合数据(如我们所看到的比例,百分比,百万分率等)。

为此,卡尔·皮尔森(Karl Pearson)提出了虚假相关一词。(注:泰勒•维根的流行伪相关的网站是不是这么多假相关的“ 关联意味着因果关系 ”的谬论。)

Aitchison(2003)的《成分数据分析简明指南》第1.7节提供了一个经典的例证,说明相关性为何不适用于成分数据的关联度量(为方便起见,在本补充信息中引用)。

组成数据不仅出现在一组非负分量的总和等于常数时;还出现了组合数据。只要数据仅携带相关信息,就可以认为它们是构成的。

我认为仅包含相关信息的数据相关性的主要问题在于结果的解释。我们可以用一个变量说明这个问题。假设世界各国的“甜甜圈每GDP美元产生”。如果一个国家的价值高于另一个国家,那是因为

  • 他们的甜甜圈产量更高?
  • 他们的GDP更低?

...谁能说?

当然,随着人们对此话题的评论,人们可以将这些变量的相关性计算为描述性变量。但是,这种关联是什么意思呢?


3

我有同样的问题。我在biorxiv上发现参考很有用:

Lovell D.,V。Pawlowsky-Glahn,J。Egozcue,S。Marguerat,J。Bähler(2014),
“比例性:相对数据相关性的有效替代方案”

在本文的支持信息中(Lovell,David等; doi:dx.doi.org/10.1101/008417),作者提到相对丰度之间的相关性在某些情况下不提供任何信息。他们给出了两个mRNA表达相对丰度的例子。在图S2中,即使这两个mRNA的绝对值之间的相关性并非负相关(绿色点和紫色点),两个不同的mRNA的相对丰度也完全呈负相关。

也许可以帮到您。


2
感谢您的建议。我没有说清楚。在支持本文的信息(Lovell,David等; doi:dx.doi.org/10.1101/008417)中,作者提到相对丰度之间的相关性在某些情况下不提供任何信息。他们给出了两个mRNA表达相对丰度的例子。在图S2中,两个不同mRNA的相对丰度是完全负相关的,即使这两个mRNA的绝对值之间的相关性不是负值(绿色点和紫色点)。
起诉

@shu也许您可以说出为什么这篇文章为您解决了类似的问题并进行了总结..?粘贴链接不是一个答案,因此请详细说明。这样做的原因也是因为链接消失了,如果您希望将来的回答对某人有所帮助,则应使其自洽。当然,为您的答案提供补充参考是一个好习惯。
蒂姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.