加权Pearson相关性的公式可以在Web,StackOverflow和Wikipedia 上轻松找到,并在多个R包(例如psych或weights)和Python的statsmodels包中实现。它的计算方式与常规相关性类似,但是使用加权均值,
mX=∑iwixi∑iwi, mY=∑iwiyi∑iwi
加权变化,
sX=∑iwi(xi−mX)2∑iwi, sY=∑iwi(yi−mY)2∑iwi
和加权协方差
sXY=∑iwi(xi−mX)(yi−mY)∑iwi
拥有所有这些,您可以轻松计算加权相关
ρXY=sXYsXsY−−−−√
关于第二个问题,据我所知,您将获得有关二十个艺术家和用户的政治倾向与偏好之间的相关性的数据,并且您希望获得某种综合度量。
让我们从平均相关性开始。有多种平均概率的方法,但是似乎没有太多的方法可以平均相关性。可以做的一件事就是用费舍尔的 -transformationz作为上MathOverflow描述,即
ρ¯=tanh−1(∑Kj=1tanh(ρj)K)
基本上,将相关系数的正切值“展平”为极值(请参见下文),以便它们对最终估计值的影响较小,并使它们的分布更接近于法线。Bushman和Wang(1995)以及Corey,Dunlap和Burke(1998)也描述了此过程。

r=cor(X,Y)−r=cor(−X,Y)=cor(X,−Y)
rjĴX我Ĵ一世ĴX我Ĵ= 1X我Ĵ= - 1
[R¯一世= 谭− 1(∑ķj = 1谭([RĴX我Ĵ)ķ)
− 11个
但...
您难道不认为所有这些对于本质上是多元回归问题的东西都是过大的?取而代之的是,所有的加权和平均都可以简单地使用加权多元回归(线性或逻辑回归,这取决于您是否预测二进制优先级或向哪个方向降低优先级),其中权重基于子样本的大小。您将使用每个音乐人的音乐偏好作为预测指标。最后,您将使用用户的偏好进行预测。这种方法更简单,统计上也更优雅。它也适用于相对一种乙
Bushman,BJ,&Wang,MC(1995)。组合样本相关系数和投票计数以获得总体相关系数的估计值和置信区间的过程。心理公报,117(3),530。
科里(DM),邓拉普(Dunlap),WP和伯克(MJ)(1998)。平均相关性:结合的Pearson rs和Fisher的z变换中的期望值和偏差,《一般心理学杂志》 125(3),245-261。