获得精确结果所需的数学比较混乱,但是我们可以相对轻松地得出期望平方相关系数的精确值。这有助于解释为什么靠近值不断显示出来,为什么增加长度ñ随机游走不会改变的东西。1 / 2ñ
关于标准术语可能会产生混淆。问题中提到的绝对相关性以及组成该变量的统计量(方差和协方差)是一种公式,可以应用于任意一对随机游走的实现。问题是当我们看许多独立的实现时会发生什么。为此,我们需要对随机游走过程抱有期望。
(编辑)
在继续之前,我想与您分享一些图形化见解。 一对独立的随机游动是二维的随机游动。我们可以绘制的路径从每个步骤(X 吨,ÿ 吨)到X 吨+ 1,ÿ 吨+ 1。如果此路径趋于向下(从左到右,绘制在通常的XY轴上),则为了研究相关的绝对值,我们将所有Y值取反。在大小为X和(X,Y)(XŤ,YŤ)Xt + 1,Yt + 1ÿX值等于标准偏差,并将 Y的最小二乘拟合与 X叠加。这些线的斜率将是相关系数的绝对值,始终位于 0和 1之间。ÿÿX01个
该图显示了这样的走道,每个走道的长度为960(标准差为标准差)。小空心圆圈标记了它们的起点。黑眼圈标记了它们的最终位置。15960
这些斜率往往很大。这么多点的完全随机散点图将始终具有非常接近零的斜率。如果我们必须描述这里出现的模式,我们可以说大多数2D随机游走逐渐从一个位置迁移到另一个位置。 (但是,这些不一定是它们的起始位置和终点位置!)然后,大约一半的时间,迁移发生在对角线方向上-因此斜率很高。
本文的其余部分将对此情况进行分析。
(X一世)(W1个,W2,… ,Wñ)w ^一世σ2
x = (x1个,… ,xñ)
V(x )= 1ñ∑ (x一世− x¯)2。
计算该值的一种好方法是取所有平方差的平均值的一半:
V(x )= 1n (n − 1 )∑j > 我(xĴ− x一世)2。
XXñ
Ë(V(X))= 1n (n − 1 )∑j > 我Ë( XĴ- X一世)2。
差异是iid变量的总和,
XĴ- X一世= W我+ 1+ W我+ 2+ ⋯ + WĴ。
w ^ķw ^ķσ2
Ë(( w ^我+ 1+ W我+ 2+ ⋯ + W2Ĵ))= (j − i )σ2。
很容易得出结论
Ë(V(X))= 1n (n − 1 )∑j > 我(j − i )σ2= n + 16σ2。
Xÿ
Ë(Ç(X,Y)2)= 3 n6− 2 n5− 3 n2+ 2 n480 n2(n − 1 )2σ4。
Xÿñ
ρ2(n )= E(C(X,Y)2)Ë(V(X))2= 3403 n3− 2 n2+ 3 n - 2ñ3− n。
9 / 400.47ρ (n )
ρ2(n )1000ρ2(n )n|ρ(n)|
这是R
产生图形的代码。
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}