我有一个具有因变量和自变量的数据集。两者都不是时间序列。我有120个观察结果。相关系数为0.43
经过此计算后,我为两个变量添加了一个列,每12个观察值的平均值,结果得到2个新列,包含108个观察值(对)。这些列的相关系数为0.77
看来我以这种方式改善了相关性。可以这样做吗?我是否通过使用平均值提高了自变量的解释能力?
4
您所做的只是通过平滑过滤器运行数据。这是在信号处理过程中一直执行的,这是完全可以接受的,并且通常在数据可用之前就需要这样做。它消除了在电子测量中始终普遍存在的噪声。但是,对于您的特定问题是否可接受,取决于您要实现的目标的具体细节,并且在很大程度上可能取决于数据中“噪声”与“质量”的多少。我刚刚注意到“两者都不是时间序列”,所以我怀疑您所做的事情没有意义,因为更改顺序会更改结果
—
Dunk
谢谢你们。我的因变量是投注系统每月结果的一系列(这些结果无关)。自变量是我构建的指标的结果。该指标生成有关某个特定月份的运动竞赛得分有多极端的得分(这些运动结果无关)。我怀疑自己所做的事情毫无意义,尽管相关系数提高了很多使我感到惊讶。
—
user2165379 '16
我不确定,但我认为平均任何数据都会得出相似的结果。我认为平均可以减少离群值的影响。因此,相关性必须提高。尽管,我敢打赌,一些数学怪胎可以提供精心挑选的数据,这些数据会产生相反的影响,但是我不希望在现实世界中会出现类似的数据。
—
Dunk
我看不到您是否指定了该数据的用途。但是,通常,在将数据呈现给指定的受众群体时,提供有关如何导出数据的公开信息是一种好习惯。
—
乔恩·米利肯
平均值表示的相关性是什么?当然,这不再是对原始变量之间相关性的合理估计。
—
Glen_b-恢复莫妮卡