phi,Matthews和Pearson相关系数之间的关系


13

phi和Matthews相关系数是同一概念吗?它们如何与两个二元变量的皮尔逊相关系数相关或等效?我假设二进制值为0和1。


两个伯努利随机变量y之间的皮尔逊相关性是:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

哪里

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

维基百科的Phi系数

在统计学中,披系数(也被称为“均方应变系数”和表示为- [R φ)是关联的用于通过皮尔逊引入两个二进制变量的测量值。此度量在解释上类似于Pearson相关系数。实际上,为两个二进制变量估算的皮尔逊相关系数将返回phi系数 ...ϕrϕ

如果我们有一个2×2的表用于两个随机变量yxy

在此处输入图片说明

描述y的关联的phi系数为 ϕ = n 11 n 00n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

维基百科的Matthews相关系数

Matthews相关系数(MCC)可以使用以下公式直接从混淆矩阵中计算:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

在该等式中,TP是真阳性的数量,TN是真阴性的数量,FP是假阳性的数量,FN是假阴性的数量。如果分母的四个和中的任何一个为零,则分母可以任意设置为一个;这导致马修斯相关系数为零,这可以证明是正确的极限值。

Answers:


14

是的,它们是相同的。马修斯相关系数只是皮尔逊相关系数在混淆表中的一种特殊应用。

列联表只是基础数据的摘要。您可以将其从列联表中显示的计数转换回每个观察值一行。

考虑一下Wikipedia文章中使用的示例混淆矩阵,其中包含5个真实肯定,17个真实否定,2个虚假肯定和3个虚假否定

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

谢谢,彼得!在数学上,对于两个二进制随机变量,为什么phi和Mathew等效于Pearson?
蒂姆(Tim)

如果您采用皮尔森相关性的定义并对其进行处理,以使其引用计数而不是单个观察值与均值之间的差之和,那么您将获得马修斯公式。我实际上尚未执行此操作,但是必须相当简单明了。
彼得·埃利斯

2

E[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

ρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.