是否允许对数据集使用平均值来改善相关性?


9

我有一个具有因变量和自变量的数据集。两者都不是时间序列。我有120个观察结果。相关系数为0.43

经过此计算后,我为两个变量添加了一个列,每12个观察值的平均值,结果得到2个新列,包含108个观察值(对)。这些列的相关系数为0.77

看来我以这种方式改善了相关性。可以这样做吗?我是否通过使用平均值提高了自变量的解释能力?


4
您所做的只是通过平滑过滤器运行数据。这是在信号处理过程中一直执行的,这是完全可以接受的,并且通常在数据可用之前就需要这样做。它消除了在电子测量中始终普遍存在的噪声。但是,对于您的特定问题是否可接受,取决于您要实现的目标的具体细节,并且在很大程度上可能取决于数据中“噪声”与“质量”的多少。我刚刚注意到“两者都不是时间序列”,所以我怀疑您所做的事情没有意义,因为更改顺序会更改结果
Dunk

谢谢你们。我的因变量是投注系统每月结果的一系列(这些结果无关)。自变量是我构建的指标的结果。该指标生成有关某个特定月份的运动竞赛得分有多极端的得分(这些运动结果无关)。我怀疑自己所做的事情毫无意义,尽管相关系数提高了很多使我感到惊讶。
user2165379 '16

2
我不确定,但我认为平均任何数据都会得出相似的结果。我认为平均可以减少离群值的影响。因此,相关性必须提高。尽管,我敢打赌,一些数学怪胎可以提供精心挑选的数据,这些数据会产生相反的影响,但是我不希望在现实世界中会出现类似的数据。
Dunk

我看不到您是否指定了该数据的用途。但是,通常,在将数据呈现给指定的受众群体时,提供有关如何导出数据的公开信息是一种好习惯。
乔恩·米利肯

3
平均值表示的相关性是什么?当然,这不再是对原始变量之间相关性的合理估计。
Glen_b-恢复莫妮卡

Answers:


15

让我们看两个向量,第一个是

    2 6 2 6 2 6 2 6 2 6 2 6

第二个向量是

   6 2 6 2 6 2 6 2 6 2 6 2

计算您将获得的Pearson相关性

cor(a,b)
[1] -1

但是,如果取值的连续对平均值,则两个向量都是相同的。相同向量具有相关性1。

  4 4 4 4 4 4  

这个简单的例子说明了该方法的缺点。

编辑:更笼统地解释它:相关系数的计算方法如下。

E[(XμX)(YμY)]σX σY

XYXμXYμY


1
μσ

谢谢。这是否意味着我的结果通过使用平均值而被“夸大”了,并且最好总是使用观察结果而不求平均值?
user2165379 '16

对于假设检验,您应该查看数据本身而不是平均值。在其他领域,描述性统计可能是有用的工具。您还应该查看其他描述性统计指标,例如分位数(尤其是中位数)和较高(集中的)矩,例如方差,偏度和峰度。但是,对于我们而言,这没有用。向量ab具有相同的分位数,相同的矩和相同的集中矩。
费迪

1
平均可以通过消除准随机散射来增加相关性,但是充分不充分的平均可能会将相关性推向零。
尼克·考克斯

谢谢。因此,如果平均而言总体上趋向于增加相关性,这意味着它不是一种改善吗?还是因为去除了准随机散射而有所改善?
user2165379 '16

10

平均可以吸引人或方便。在最坏的欺骗情况下,它也可能是欺骗的来源,因此即使有明确的取平均值依据,也要小心行事。

1

在某些情况下,平均有意义。例如,如果对季节变化的兴趣很小或没有兴趣,则将其平均为年值会创建一个精简的数据集,您可以在其中集中关注那些年值。

在各个领域,研究人员可能会对完全不同规模的关联感兴趣,例如,个人,县,州,国家的失业与犯罪之间的关联(用最有意义的术语代替)。

兴趣(通常也是推理麻烦的主要来源)在于解释不同规模或级别的情况。例如,某地区的失业率与犯罪率之间的高度相关性并不一定意味着失业者更容易成为犯罪分子。您需要有关个人的数据才能明确这一点。数据的提供可能非常尴尬,因为仅在最不感兴趣的规模上才可以提供数据,这可能是出于经济或机密性的考虑。

我还注意到,许多测量通常都是在较小的时间间隔和/或较小的空间间隔内进行平均的,因此无论如何,数据经常都经过平均。


3
我回应@Ferdi的回答,强调可能有许多不同的平均方法。这就增加了不确定性。在将小区域聚集到更大区域时,困难尤其严重。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.