平均相关值


20

假设我测试了变量在不同实验条件下如何Y取决于变量X,并获得下图:

在此处输入图片说明

上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。

我想之间计算“平均相关性”(或“平均关系”)XY。我可以简单地取平均值r吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?R2rR2

Answers:


15

简单的方法是添加分类变量以识别不同的实验条件,并将其与x的“交互作用”一起包括在模型中;即,ÿ ž + X ž。这一次执行所有五个回归。它的R 2是您想要的。zxyz+x#zR2

要了解为什么对各个值取平均值可能是错误的,假设在某些实验条件下,斜率的方向相反。您会平均将一堆1和-1的结果平均为0,这不会反映任何拟合的质量。要了解为什么对R 2(或其任何固定变换)取平均值是不正确的,假设在大多数实验条件下,您只有两个观测值,因此它们的R 2都等于1,但是在一个实验中,您有一百个观测值与R 2 = 0。几乎为1 的平均R 2不能正确反映这种情况。RR2R21R2=0R2


1
请原谅我的无知,但是答案中的#号代表什么?
Boris Gorelik

1
对于所使用的隐式定义,我认为您的答案是一个很好的答案。如果它们将其表示为平均标准化斜率(可能是数字暗示的)怎么办?在这种情况下,您确实希望取消负片和正片。您对样本量问题一无所知。另外,请考虑将评论移到答案中。
约翰,

您需要还是调整后的R 2R2R2
russellpierce

@whuber在您的初始评论中,您的意思是相关度可能为;的- [R 2在每种情况下是1。(我意识到这只是打字或编辑上的问题;它不会改变您的观点,但可能会误导您。)±1R21
Glen_b -Reinstate Monica 2015年

@rpierce在第二段中,如果使用调整后的,则对思路没有影响- 只需想象三个点(而不是两个点)接近共线的集合。它们的调节后的R 2可以任意接近1R2R21
whuber

24

对于Pearson相关系数,通常适合使用Fisher z变换对r值进行变换。然后平均z值并将平均值转换回r值。

我想对于Spearman系数也很好。

这是一篇论文和Wikipedia 条目


1
+1; 这个答案似乎比公认的答案更合适,更笼统,但是在特定的用例中,它不会因为r值为1而崩溃吗?在这里,如果只是“添加”一个缺乏相关性的数据点,是否可以使用类似emlog的logit?如果是这样,将在哪里添加它?是否需要进行一次蒙特卡洛模拟,从源分布中获取两个随机变量?另一种方法是将r调整为略小于1的某个值?一个人应该调整到多远?
russellpierce

3

平均相关可以是有意义的。还应考虑相关性的分布(例如,绘制直方图)。

但是据我了解,对于每个人,您都有一些排名 ñ 项目以及该项目针对该个人的预测排名,您正在查看的是个人排名与预测排名之间的相关性。

在这种情况下,相关性可能不是算法进行预测的最佳方法。例如,假设该算法完美地获得了前100个项目,而接下来的200个项目则完全混乱了,反之亦然。可能您只在乎排名的质量。在这种情况下,您可以查看个人排名与预测排名之间的绝对差之和,但只能查看个人排名最高 项目。


1

使用均方预测误差(MSPE)来提高算法的性能呢?如果要在一组算法之间比较预测性能,这是您要尝试执行的标准方法。


我不知道为什么这篇文章stats.stackexchange.com/questions/17129/…与这个文章合并了。在我看来,他们实际上在问两个不同的问题-有两个不同的目标。
StatsStudent 2011年

1
您是正确的:他们是不同的问题。我已投票决定重新开放其他职位(尽管可能产生的影响尚不清楚)。很抱歉,没有看到您的评论:如果您改为标记该帖子,它将在几年前引起我们的注意!
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.