相关性是否假设数据平稳?


27

市场间分析是一种通过查找不同市场之间的关系来对市场行为建模的方法。通常,会计算两个市场之间的相关性,比如说标准普尔500和30年期美国国债。这些计算通常不是基于价格数据,这对每个人来说都是显而易见的,它不符合固定时间序列的定义。

除了可能的解决方案(改为使用收益)以外,相关性计算(其数据是非平稳的)甚至是有效的统计计算吗?

您是否会说这样的相关性计算有些不可靠,或者只是胡说八道?


1
您所说的“有效统计计算”是什么意思,您应该说某物的有效统计(估计)计算。这里的东西很重要。关联是对两组数据之间的线性关系的有效计算。我不明白为什么需要平稳性,您是说自相关吗?
罗宾吉拉德2011年

2
有一个新网站可能更适合您的问题:quant.stackexchange.com。现在,您显然将计算与解释混淆了。
mpiktas 2011年

@mpiktas,由于收益的平稳性和价格的非平稳性,量化社区决定使用收益还是价格。我在这里要问的不只是对为什么要这样做的直观解释。
Milktrader 2011年

@robin,您可能会对统计分析提出几项疑问。样本量以及诸如操纵数据之类的更明显的事物都会浮现。数据的非平稳性是否会质疑相关性计算?
Milktrader 2011年

而不是计算,如果相关性不高,则可能是解释。如果该值很高,则表示相关性高(即线性关系高),两个非平稳时间序列说和可能具有高度相关性(例如,当。)Y tX t = Y t(Xt)(Yt)Xt=Yt
robin girard 2011年

Answers:


37

相关性测量线性关系。在非正式场合,关系意味着稳定。当我们计算平稳变量的样本相关性并增加可用数据点的数量时,该样本相关性趋向于真正相关。

可以证明,对于通常是随机游走的价格,样本相关性倾向于随机变量。这意味着无论我们拥有多少数据,结果总是会有所不同。

请注意,我尝试表达没有数学的数学直觉。从数学的角度来看,这种解释非常清楚:平稳过程的样本矩以概率收敛为常数。随机游动的样本矩收敛到布朗运动积分,这是随机变量。由于关系通常表示为数字而不是随机变量,因此不计算非平稳变量的相关性的原因变得显而易见。

更新由于我们对两个变量之间的相关性感兴趣,因此首先假设它们来自平稳过程。平稳性意味着和不依赖于。所以相关E Z t c o v Z tZ t - htZt=(Xt,Yt)EZtcov(Zt,Zth)t

corr(Xt,Yt)=cov(Xt,Yt)DXtDYt

也不依赖于,因为公式中的所有量都来自不依赖于矩阵。所以样本相关性的计算c o v Z tttcov(Zt)t

ρ=Çø- [R[R Xÿρ→交通ρŤ→交通

ρ^=1Tt=1T(XtX¯)(YtY¯)1T2t=1T(XtX¯)2t=1T(YtY¯)2
是有道理的,因为我们可能有合理的希望,样本相关性将估计。事实证明,这种希望并非没有根据,因为对于满足某些条件的平稳过程,我们将设为。此外,,因此我们可以检验关于的假设。ρ=corr(Xt,Yt)ρ^ρTρT(ρ^ρ)N(0,σρ2)ρ

现在假设不平稳。然后,可能取决于。因此,当我们观察大小为的样本时,我们可能需要估计不同的相关性。当然这是不可行的,因此在最佳情况下,我们只能估计某些功能,例如均值或方差。但是结果可能没有明智的解释。 Ç ø - [R [R X ÿ Ť Ť ρ ρ Ztcorr(Xt,Yt)tTTρtρt

现在,让我们检查一下可能研究最多的非平稳过程随机游动的相关性会发生什么。如果,过程称为随机游走,其中是平稳过程。为了简单起见,假设。然后Z t = t s = 1U tV tC t = U tV tE C t = 0Zt=(Xt,Yt)Zt=s=1t(Ut,Vt)Ct=(Ut,Vt)ECt=0

corr(XtYt)=EXtYtDXtDYt=Es=1tUts=1tVtDs=1tUtDs=1tVt

为了进一步简化问题,假设是白噪声。这意味着,对于,所有相关均为零。请注意,这并不将限制为零。E C t C t + hh > 0 c o r r U tV tCt=(Ut,Vt)E(CtCt+h)h>0corr(Ut,Vt)

然后

corr(Xt,Yt)=tEUtVtt2DUtDVt=corr(U0,V0).

到目前为止,尽管过程还不稳定,但相关性还是有意义的,尽管我们必须做出相同的限制性假设。

现在,要查看样本相关性发生了什么,我们将需要使用以下有关随机游动的事实,称为函数中心极限定理:

š[01]w ^小号=w ^1级小号w ^2个小号中号小号=M1sM2s=

1TZ[Ts]=1Tt=1[Ts]Ct(cov(C0))1/2Ws,
在分布中,其中和是双变量的布朗运动(二维维纳过程)。为了方便起见,引入定义。s[0,1]Ws=(W1s,W2s)Ms=(M1s,M2s)=(cov(C0))1/2Ws

再次为简单起见,让我们将样本相关性定义为

ρ^=1Tt=1TXtYt1Tt=1TXt21Tt=1TYt2

让我们从差异开始。我们有

E1Tt=1TXt2=1TEt=1T(s=1tUt)2=1Tt=1TtσU2=σUT+12.

随着增加,它达到无穷大,因此我们遇到了第一个问题,样本方差不会收敛。另一方面, 连续映射定理和泛函中心极限定理给我们提供了T

Ť→交通

1T2t=1TXt2=t=1T1T(1Ts=1tUt)201M1s2ds
其中收敛是分布的收敛,如。T

同样,我们得到

1

1T2t=1TYt201M2s2ds
1T2t=1TXtYt01M1sM2sds

最后,对于随机游走的样本相关性,我们得到

Ť→交通

ρ^01M1sM2sds01M1s2ds01M2s2ds
的分布形式为。 T

因此,尽管相关性得到了很好的定义,但样本相关性并未像固定过程中那样趋向于收敛。相反,它收敛到某个随机变量。


1
我一直在寻找数学观点的解释。它给了我一些思考和进一步探索的机会。谢谢。
Milktrader 2011年

1
这种回答似乎避开了最初的问题:您是否只是说是的,计算相关性对平稳过程有意义吗?
ub

1
@whuber,考虑到评论,我在回答问题,但是我再次阅读了该问题,据我了解,OP询问了有关非平稳数据相关性的计算。平稳过程的相关性计算很有意义,所有宏观经济分析(VAR,VECM)都依赖于此。
mpiktas

我将尝试通过回答来澄清我的问题。
ub

3
@whuber我无法回答的是,基于非平稳数据的相关会产生随机变量,该变量可能有用也可能没有用。基于固定数据的相关收敛于一个常数。这可以解释为什么交易者被“ x天滚动相关”所吸引,因为相关行为是短暂而虚假的。“ x天滚动相关性”是有效还是有用是另一个问题。
Milktrader

13

...其相关数据不稳定的相关性计算甚至是有效的统计计算吗?

令为离散的随机游动。选择一个正数。如果定义过程和,则,,否则;和。换句话说,开始时与相同,但是每次超过,它就会切换符号(否则在所有方面都模拟)。h P V P 0 = 1 P t + 1 = P t V t > h P t + 1 = P t V t = P t W t V W V h WWhPVP(0)=1P(t+1)=P(t)V(t)>hP(t+1)=P(t)V(t)=P(t)W(t)VWVhW

在此处输入图片说明

(在该图中(对于)为蓝色,为红色。符号中有四个开关。)w ^ Vh=5WV

实际上,在短时间内,倾向于与完全相关或与完全反相关。但是,使用相关函数来描述和之间的关系将无济于事(这个词比“不可靠”或“胡说八道”更能抓住问题的发生)。W V WVWVW

Mathematica代码产生图:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]

您的回答指出这一点很好,但我不会说流程是相关的,我会说它们是相关的。这就是重点。相关性的计算是有效的,这里将说“无相关性”,我们都知道这并不意味着“无相关性”。
罗宾吉拉德2011年

1
@robin很好,但是我专门构建了此示例,以便在很长的一段时间内,这两个过程可以完美地关联在一起。这个问题不是依赖与相关的问题之一,而是与微妙的现象相关的:过程之间的关系在随机周期发生变化。简而言之,这就是真实市场中可能发生的事情(或者至少我们应该担心它会发生!)。
whuber

@whubert是的,这是一个很好的例子,显示了某些过程在很长的一段时间内具有非常高的相关性,而在考虑较大的时间尺度时,它们甚至根本不相关(但高度相关)。
罗宾吉拉德

2
@robin girard,我认为这里的关键是,对于非平稳过程,理论相关性随时间而变化,而对于平稳过程,理论相关性保持不变。因此,对于基本上为1的样本相关性,在非平稳过程中不可能捕获真实相关性的变化。
mpiktas 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.