虚假相关的期望值


12

我们独立于正态分布绘制N样本,每个样本的大小为。μ σ 2n(μ,σ2)

然后,从样本中选择彼此具有最高(绝对)Pearson相关性的2个样本。N

这种相关性的期望值是多少?

谢谢[PS这不是作业]


2
(+1)这将是一个颇具挑战性的作业问题:-)。您是否需要一个一般性的答案,或者(也许)可以将注意力集中在或特定值上?例如,当远大于时,有可能得出良好的近似值。在其他情况下,可能需要不同的近似值。n n NNnnN
whuber

1
我希望有一个一般性的答案,但是假设可以了!对于和特定值,它不会那么有趣,因为我可以通过仿真观察这种特定情况(这是我目前正在做的事情),但它可能仍然很有趣。Ñ Ñn>>NNn
P Sellaz

1
我认为,对任何实际实用程序的通用解决方案都不太可能,尽管我可能会误会。它与几何和线性代数之间的一些开放问题密切相关。在应用中,例如在压缩感测中就需要关于这种量的信息。
主教

1
FWIW,这是我刚刚运行的模拟的结果:使用Normal(0,1),我发现均值相关(超过1000个模拟)和样本数量近似与相关使用线性回归模型, 对于和模型拟合和常规诊断都很好。我还发现,平均相关性大致呈正态分布(尽管稍微偏右)。Ñ ρ = 0.025 + 0.113 LN Ñ - 0.008 LN Ñ 2 Ñ = 100 4 Ñ ÑρN
ρ=0.025+0.113ln(N)0.008ln(N)2
n=1004Nn
P Sellaz

Answers:


9

我发现以下文章解决了这个问题:Jiang,Tiefeng(2004)。样本相关矩阵的最大条目的渐近分布。应用概率年鉴, 14(2),865-880

Ln=max1i<jN|ρij|ρijijnij

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
其中假定存在于纸张中,是。a=limnn/NNn

显然,此结果适用于具有足够有限时刻的任何分布分布(编辑:请参见下面的@cardinal注释)。江指出,这是第一类极端价值分布。位置和比例是

σ=2,μ=2log(1a28π).

I型EV分布的期望值为,其中表示欧拉常数。但是,如评论中所述,分配的收敛本身并不能保证手段与限制分配的手段收敛。μ+σγγ

如果在这种情况下可以显示这样的结果,则的渐近期望值为nLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

注意,这将给出最大平方相关的渐近期望值,而问题要求最大绝对相关的期望值。所以不是100%在那里,而是接近。

我进行了一些简短的模拟,使我认为要么1)我的模拟存在问题(可能),2)我的转录/代数存在问题(也可能),或者3)近似对我使用的和值。也许OP可以使用这种近似来权衡一些仿真结果?nN


2
顺便说一句:我真的很喜欢这个问题-之前我曾经想过这个问题。我对与Type-I发行版的连接感到惊讶-我发现它非常酷。我只是希望我能理解导致它的数学……
jmtroos 2012年

1
(+1)很高兴找到!! 我认为我们可以假定此的正平方根等于最大绝对相关的期望值?在您的期望表达式中,我们不能仅将涉及所有部分都取出来: 吗?无论如何,我已经将此与我的模拟进行了比较,看起来非常接近!我的R代码真的很草率,所以我将在今天或明天晚些时候整理一下并将其发布...Lnn
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz

顺便说一句,本文就是从这里可以直接projecteuclid.org/DPubS/Repository/1.0/...
P Sellaz

3
(+1)这是一篇非常不错的论文,我只是略读了一下,但在这里我们需要小心一点。一些注意事项:(1)结果是针对,因此向量的维数必须与考虑这些结果的向量数目大致成比例增长举行。(2)即使在这种情况下,结果也不适用于“任何”分配;实际上,从我们本质上要求第30个矩是有限的意义上来说,本文中的条件要求随机变量是“几乎指数有界的”变量!(续)n/pγ(0,)
红衣主教

3
(续)(3)分布的收敛不能保证均值与极限分布的收敛。为此,我们通常使用类似于集合统一可积性的方法。这在本文中没有显示出来,并且由于处理极值分布,可能很不正确。我对此现象最喜欢的例子之一是一系列随机变量,它们的分布收敛到,但是可以使人们收敛到选择的任何一个正常数。{Ln}χ12
红衣主教

2

除了@jmtroos提供的答案之外,以下是我的模拟的详细信息,并与@jmtroos对Jiang(2004)的期望的推导进行了比较,即:

E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}

对于较小的,此期望值似乎高于模拟值,对于较大的,此期望值似乎低于模拟值,并且随着增加,它们似乎略有不同。但是,随着的增加,差异逐渐减小,正如我们所期望的那样,正如本文所声称的那样,分布是渐近的。我已经尝试过各种。下面的模拟使用。我是R的新手,因此欢迎提出任何改进我的代码的提示或建议。NNNnn[100,500]n=200

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

请参阅我对其他答案的评论,这可能会(或可能不会)帮助您解释您注意到的一些差异。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.