诸如加权相关之类的东西?


14

我收到了一些有趣的数据,其中涉及最受欢迎的音乐艺术家,按地点划分为大约200个国会区。我想看看是否有可能针对某人的音乐偏好来对其进行投票,并确定该人是“像民主党人一样听”还是“像共和党人一样听”。(自然这很轻松,但是数据中确实存在熵!)

我有大约100位艺术家的数据,以及过去三个选举周期中每个地区共和党人和民主党人的平均投票百分比。因此,我对每位艺术家进行了相关分析,以了解哪些听众与民主党人的投票份额成比例最不均衡。对于任何给定的艺术家,这些相关性从大约-0.3到0.3之间变化,中间的很多值几乎没有或没有预测能力。

我有两个问题:首先,每个地区的溪流总数差异很大。现在,我正在将每个地区(例如,碧昂斯)中所有流的百分比与为民主党人投票的百分比相关联。但是,一个地区的总流量可能为数百万,而另一个地区的总流量则为10万。我需要以某种方式加权相关性来解决这个问题吗?

其次,我很好奇如何将这些相关性组合成关于用户政治的综合猜测。假设我选取了绝对相关值最高(正值和负值)的20位艺术家,每个方向上的十位艺术家,然后调查用户对他或她的喜欢程度。因此,我对每位艺术家都投了赞成票或反对票,并加上了所有20个值与政治的相关性。是否存在将这些相关性组合为单个估计的标准方法?(我在想类似《纽约时报》著名的方言测验,它将测验 25个问题的区域概率结合到热点图中。但是在这种情况下,我只需要一个单一的值来了解民主党或共和党人在音乐上的品味如何。

谢谢!

Answers:


25

加权Pearson相关性的公式可以在WebStackOverflowWikipedia 轻松找到,并在多个R包(例如psychweights)和Python的statsmodels包中实现。它的计算方式与常规相关性类似,但是使用加权均值

mX=iwixiiwi,    mY=iwiyiiwi

加权变化

sX=iwi(ximX)2iw一世    sÿ=一世w一世ÿ一世-ÿ2一世w一世

和加权协方差

sXY=iwi(ximX)(yimY)iwi

拥有所有这些,您可以轻松计算加权相关

ρXY=sXYsXsY

关于第二个问题,据我所知,您将获得有关二十个艺术家和用户的政治倾向与偏好之间的相关性的数据,并且您希望获得某种综合度量。

让我们从平均相关性开始。有多种平均概率的方法,但是似乎没有太多的方法可以平均相关性。可以做的一件事就是用费舍尔的 -transformationz作为上MathOverflow描述,即

ρ¯=tanh1(j=1Ktanh(ρj)K)

基本上,将相关系数的正切值“展平”为极值(请参见下文),以便它们对最终估计值的影响较小,并使它们的分布更接近于法线。Bushman和Wang(1995)以及Corey,Dunlap和Burke(1998)也描述了此过程。

在此处输入图片说明

r=cor(X,Y)r=cor(X,Y)=cor(X,Y)

rĴĴX一世Ĵ一世ĴX一世Ĵ=1个X一世Ĵ=-1个

[R¯一世=-1个Ĵ=1个ķ[RĴX一世Ĵķ

-1个1个

但...

您难道不认为所有这些对于本质上是多元回归问题的东西都是过大的?取而代之的是,所有的加权和平均都可以简单地使用加权多元回归(线性或逻辑回归,这取决于您是否预测二进制优先级或向哪个方向降低优先级),其中权重基于子样本的大小。您将使用每个音乐人的音乐偏好作为预测指标。最后,您将使用用户的偏好进行预测。这种方法更简单,统计上也更优雅。它也适用于相对一种


Bushman,BJ,&Wang,MC(1995)。组合样本相关系数和投票计数以获得总体相关系数的估计值和置信区间的过程。心理公报,117(3),530。

科里(DM),邓拉普(Dunlap),WP和伯克(MJ)(1998)。平均相关性:结合的Pearson rs和Fisher的z变换中的期望值和偏差,《一般心理学杂志》 125(3),245-261。


谢谢!这有很大帮助。将于今天晚些时候提供赏金。
克里斯·威尔逊

@Tim在以下情况下如何计算加权协方差 X一世ÿ一世有不同的可靠性权重?
Kagaratsch '19

1
@Kagaratsch我从未见过这样的公式。这是一个很好的问题。
蒂姆
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.