在变量对数转换之前或之后进行相关


9

关于是否应在进行对数转换之前或之后为两个随机变量X和Y计算出皮尔逊相关性,是否有一个普遍的原则?有测试哪个程序更合适?它们产生相似但不同的值,因为对数变换是非线性的。是否取决于对数后X或Y是否更接近常态?如果是这样,那为什么重要呢?这是否意味着应该对X和Y与log(X)和log(Y)进行正态性检验,并据此确定pearson(x,y)是否比pearson(log(x),log( y))?


@vinux有一个很好的答案,并提供了一个有用的链接来理解正态性在相关性中的作用。我只想指出这个问题:stats.stackexchange.com/questions/298,这对于了解日志在回归中的作用非常有用
gung-恢复莫妮卡

Answers:


5

因为 日志X日志ÿ 是数据的单调变换 Xÿ,您也可以选择使用Spearman的排名相关性ρ小号),不必担心会转换数据,因为您会得到 ρ小号Xÿ=ρ小号日志X日志ÿ


4

Correlation(pearson)测量两个连续变量之间的线性关系。(X,Y)或(log X,log Y)没有这样的选择。变量的散点图可用于理解关系。

以下链接可能会回答有关正常性的问题。链接


-3

皮尔逊相关性用于参数测试,并且比非参数测试更强大。因此,我们选择在任何非参数过程之前使用转换。转换数据并获得皮尔逊相关性。而已。


@ abi:根据样本量,在功率和MSE方面,Spearman系数和Kendall系数与具有正态分布数据的Pearson系数相对相似,并且在数据受到轻微污染的情况下也要好得多。
Patrick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.