我正在研究的一个在线模块指出,永远不要对比例数据使用Pearson相关。为什么不?
或者,如果有时可以还是总是可以,为什么?
我正在研究的一个在线模块指出,永远不要对比例数据使用Pearson相关。为什么不?
或者,如果有时可以还是总是可以,为什么?
Answers:
这是在每次观察中多个变量加在一起为1的情况。我的回答将是直觉级的;这是故意的(而且,我不是合成数据专家)。
让我们拥有iid(因此为零相关)正值变量,然后对其求和并重新计算为该总和的比例。然后,
each V summing to 1 ( 100%)
劳驾?我不懂你 我没有对单个V施加任何约束,只是一个分数。但是,最初的约束是我的示例在将Vs转换为分数之前假设零相关。
评论的视频链接将上下文设置为合成的上下文,也可以称为混合。在这些情况下,每种成分的比例之和总计为1。例如,空气为78%的氮气,21%的氧气和1%的其他氮气(总计为100%)。假定一种成分的数量完全由另一种成分决定,则任何两种成分将具有理想的多线性关系。对于空中示例,我们有:
因此:
因此,如果您知道任何两个组件,则第三个组件将立即被知道。
通常,对混合物的约束是
您可以计算两个组件之间的相关性,但不能提供信息,因为它们始终是相关的。您可以在分析按比例组成测量的数据中阅读有关组成分析的更多信息。
当比例数据来自不同域时,可以使用相关性。假设您的回应是LCD屏幕上的坏点像素。您可以尝试将其与屏幕化学处理步骤中使用的氦气比例相关。
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
不清楚。你能扩大吗?
这是一个很深的问题,有一些微妙之处需要说明。我会尽力而为,但是即使我已经发表了有关该主题的文章(比例性:相对数据的相关性的有效替代方法),我也总是对新的关于仅包含相对信息的数据分析的见解感到惊讶。
正如对此线程的贡献者所指出的那样,由于将相关性应用于一组成分被限制为一个常数的组合数据(如我们所看到的比例,百分比,百万分率等)。
为此,卡尔·皮尔森(Karl Pearson)提出了虚假相关一词。(注:泰勒•维根的流行伪相关的网站是不是这么多假相关的“ 关联意味着因果关系 ”的谬论。)
Aitchison(2003)的《成分数据分析简明指南》第1.7节提供了一个经典的例证,说明相关性为何不适用于成分数据的关联度量(为方便起见,在本补充信息中引用)。
组成数据不仅出现在一组非负分量的总和等于常数时;还出现了组合数据。只要数据仅携带相关信息,就可以认为它们是构成的。
我认为仅包含相关信息的数据相关性的主要问题在于结果的解释。我们可以用一个变量说明这个问题。假设世界各国的“甜甜圈每GDP美元产生”。如果一个国家的价值高于另一个国家,那是因为
...谁能说?
当然,随着人们对此话题的评论,人们可以将这些变量的相关性计算为描述性变量。但是,这种关联是什么意思呢?
我有同样的问题。我在biorxiv上发现此参考很有用:
Lovell D.,V。Pawlowsky-Glahn,J。Egozcue,S。Marguerat,J。Bähler(2014),
“比例性:相对数据相关性的有效替代方案”
在本文的支持信息中(Lovell,David等; doi:dx.doi.org/10.1101/008417),作者提到相对丰度之间的相关性在某些情况下不提供任何信息。他们给出了两个mRNA表达相对丰度的例子。在图S2中,即使这两个mRNA的绝对值之间的相关性并非负相关(绿色点和紫色点),两个不同的mRNA的相对丰度也完全呈负相关。
也许可以帮到您。