假设我测试了变量在不同实验条件下如何Y
取决于变量X
,并获得下图:
上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。
我想之间计算“平均相关性”(或“平均关系”)X
和Y
。我可以简单地取平均值r
吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?r
假设我测试了变量在不同实验条件下如何Y
取决于变量X
,并获得下图:
上图中的虚线表示每个数据系列(实验设置)的线性回归,图例中的数字表示每个数据系列的Pearson相关性。
我想之间计算“平均相关性”(或“平均关系”)X
和Y
。我可以简单地取平均值r
吗?那么“平均确定标准” 呢?我应该计算平均值,然后取该值的平方,还是应该计算单个R 2的平均值?r
Answers:
简单的方法是添加分类变量以识别不同的实验条件,并将其与x的“交互作用”一起包括在模型中;即,ÿ 〜ž + X #ž。这一次执行所有五个回归。它的R 2是您想要的。
要了解为什么对各个值取平均值可能是错误的,假设在某些实验条件下,斜率的方向相反。您会平均将一堆1和-1的结果平均为0,这不会反映任何拟合的质量。要了解为什么对R 2(或其任何固定变换)取平均值是不正确的,假设在大多数实验条件下,您只有两个观测值,因此它们的R 2都等于1,但是在一个实验中,您有一百个观测值与R 2 = 0。几乎为1 的平均R 2不能正确反映这种情况。
使用均方预测误差(MSPE)来提高算法的性能呢?如果要在一组算法之间比较预测性能,这是您要尝试执行的标准方法。