大小不相等的两个变量之间的相关性


9

在我正在处理的问题中,我有两个随机变量X和Y。我需要弄清楚这两个变量之间的相关性如何,但是它们的维数不同。X的行空间的等级为4350,Y的行空间的等级实质上较大,为数万。X和Y的列数相同。

我需要测量两个变量之间的相关性,而Pearson的r要求X和Y具有相等的维数(至少R要求两个rv是)。

我是否有希望在这两者之间建立关联,还是应该找到一些方法来删减Y的观测值?

 EDIT

从评论中添加信息,应该在问题中。

我想我忘了提这个了。X和Y是股票价格。X公司的上市时间比Y公司短得多。我想说一下X和Y的价格之间的相关性。在X和Y都存在的一段时间内,我肯定可以得到一个相关性。我想知道是否知道X并不存在的Y的额外几年的股价为我提供了任何其他信息。


2
这听起来并不像您有观察(或“案例”)同时观察到X和Y的实现。您如何找出哪个X与哪个Y相关联?
Stephan Kolassa 2010年

1
我想我忘了提这个了。X和Y是股票价格。X公司的上市时间比Y公司短得多。我想说一下X和Y的价格之间的相关性。在X和Y都存在的一段时间内,我肯定可以得到一个相关性。我想知道是否知道X年不存在的Y的额外几年的股价为我提供了任何其他信息。
Christopher Aden 2010年

2
@Christopher我建议您更新您的问题以反映您的上述评论。另外,为了使关联有意义,不仅需要相等的尺寸;实际测量必须来自相同的情况,在您的情况下,这大概是相同的时间点。
Jeromy Anglim

2
我第二次接受Jeromy关于更新问题的评论……
Stephan Kolassa,2010年

另一个问题:您提到X和Y的列数相同。每个会是一个吗?还是您有X和Y的多个系列(不同证券交易所的价格或类似价格)?
Stephan Kolassa 2010年

Answers:


10

插补,时间序列分析,GARCH模型,内插,外推或其他奇特的算法都不会做任何事情来创建不存在的信息(尽管它们可以创建这种错觉;-)。X上市之前,Y的价格历史对评估它们之间的相关性是没有用的。

有时(通常是为首次公开募股做准备),分析师使用内部会计信息(或私人股票交易记录)来回顾性地重建X股上市之前的假设价格。可以想象,这样的信息可以用来增强相关性的估计,但是考虑到此类回播的极具试验性,我怀疑这种努力是否会有所帮助,除非最初只有X几天或几周的价格可用。


澄清:我没有提到GARCH来处理丢失的数据问题(这当然是没有道理的)-而是改进了两者同时存在时的时间序列之间的相关性的简单计算。
Stephan Kolassa 2010年

@斯蒂芬:好的。我提到它主要是为了表明我并没有忽略你!
ub

1
谢谢你,胡布。这与我所寻找的一致。我认为,当X和Y的相互时间框架已经达到16年左右时,使用反向广播来增加X的额外几周没有多大用处(或可行性)。
Christopher Aden 2010年

2
@克里斯托弗:!! 拥有16年(每天关闭?)的数据,您不仅拥有足够的数据来找到相关性,还可以探索其随着时间的变化。(我相信这是@Stephan Kolassa的答复的精神。)
whuber

我同意。使用技术找出X在首次公开募股之前将采用的价值似乎容易出错。我可能还会质疑16年之久的数据对预测现代趋势的相关性。
Christopher Aden

10

因此,问题出在缺少数据之一(并非所有Y都有对应的X,通过时间点进行对应操作)。我不认为要在这里做很多事情,而不仅仅是丢掉没有X的Y并计算完整对上的相关性。

您可能需要阅读财务时间序列,尽管目前我没有很好的参考资料(想法,有人吗?)。股票价格通常表现出随时间变化的波动性,可以通过例如GARCH进行建模。可以想象,您的两个时间序列X和Y在波动率较低期间(经济增长时,所有股票价格都倾向于上涨)呈现正相关,而在整体波动率较高时(9/11,航空公司在资金逃往更安全的投资)。因此,仅计算总体相关性可能太依赖于您的观察时间范围。

更新:我想您可能想看看VAR(向量自回归)模型。


对于基本的财务时间序列参考,您可以在这里看到我的答案:stats.stackexchange.com/questions/328/…。Tsay文字是最受欢迎的文字之一。
Shane 2010年

2

@Jeromy Anglim正确指定了此。当只有一个时间序列存在时,拥有额外的信息将在这里没有任何价值。原则上,应该使用常规的相关度量对数据同时进行采样,以使其有意义。

作为一个更普遍的问题,我会补充说,有一些技术可以处理不规则间隔的时间序列数据。您可以搜索“不规则间隔的时间序列相关性”。最近的一些工作已经使用高频数据完成了“已实现的波动率和相关性”(Andersen,Bollerslev,Diebold和Labys 1999)。


1

考虑到您评论中的额外信息,我建议您看一下两个相关性。首先是两家公司共同存在的时间段。因此,如果大约2年前,您只需删除该数据并查看其余数据即可。第二个是相对时间段。在第二个中,您不关联实际时间,而是关联自公司上市以来的时间。

前者将受到同一时期内共享的一般经济力量的强烈影响。后者将受到公司在首次公开募股后变更时所拥有的财产的影响。


0

解决此问题的另一种方法是使用时间序列模型为较短的序列估算缺少的数据,这在特定情况下可能有意义,也可能没有意义。

在您的情况下,将股票价格推算为过去将意味着您要提出以下反事实问题:如果X公司在过去n年上市而不是实际上市时,其股价将是多少?可以通过考虑关联公司的股价,总体市场趋势等来完成这种数据估算。但是,鉴于您的项目目标,这种分析可能没有意义,或者可能不需要。


0

很大程度上取决于您所做的假设。如果您假设数据是固定的,则第一个系列的更多数据将为您提供其波动性的更好估计。该估计可以用于改善相关估计。因此,以下陈述不正确:

“ X上市之前,Y的价格历史对于评估其后续相关性是没有用的”


我想到了这一点。从理论上讲可能会起作用,但会非常不可靠,因此最好避免。
kjetil b halvorsen

-1

这听起来像是机器学习算法的问题。因此,我将尝试找出描述趋势的某个方面的一组功能并对此进行培训。整个机器学习理论对于这个答案箱来说有点复杂,但是对您来说很有用。

但老实说,我认为那已经存在。人们可以在哪里赚钱了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.