重尾分布阶数统计量的渐近正态性


9

背景: 我有一个要在尾部分布较大的情况下建模的样本。我有一些极端的值,以至于观察值的分布相对较大。我的想法是使用广义Pareto分布对此建模,所以我做到了。现在,我的经验数据的0.975分位数(约100个数据点)低于我拟合到我的数据的广义帕累托分布的0.975分位数。我想,现在有什么方法可以检查这种差异是否值得担心吗?

我们知道分位数的渐近分布为:

分位数的渐近正态性

因此,我认为通过尝试在广义Pareto分布的0.975分位数附近绘制95%的置信带,并使用与我拟合数据时得到的参数相同的参数来激发我的好奇心是个好主意。

GPD

如您所见,我们在这里使用一些极限值。而且由于分布是如此之大,因此密度函数的值非常小,使用上面的渐近正态性公式的方差使置信带达到的数量级:±1012

±1.960.9750.025ñFGPdq0.9752

因此,这没有任何意义。我的分布只有积极的结果,而置信区间包括负值。所以这里发生了一些事情。如果我计算0.5分位数附近的谱带,则谱带并不是那么大,但仍然很大。

我继续看一下如何与另一个分布,即分布一起使用。从分布模拟观测值,并检查分位数是否在置信带内。我这样做了10000次,以查看置信区间内模拟观察值的0.975 / 0.5分位数的比例。ñ1个1个ñ=100ñ1个1个

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

编辑:我固定了代码,并且两个分位数在n = 100和命中了大约95%。如果我将标准偏差提高到,则带内的命中很少。因此问题仍然存在。σ=1个σ=2

EDIT2:我撤回了我在上面的第一次EDIT中所声称的内容,正如一位乐于助人的先生在评论中所指出的那样。实际上,看起来这些配置项对于正态分布是有益的。

如果要检查在给定的特定分布下是否有可能观察到某些分位数,那么阶跃统计量的这种渐近正态性只是一种非常不好的度量方法吗?

直观地,在我看来,分布的方差(一个人认为创建了数据,或者在我的R示例中,我们知道创建了数据)与观察数之间存在某种关系。如果您有1000个观测值并且方差很大,那么这些波段是不好的。如果一个人有1000个观测值,并且方差很小,那么这些频段可能会很有意义。

有人愿意为我解决这个问题吗?


2
您的频段基于渐近正态分布的方差,但应基于渐近正态分布的标准偏差(频段= 1.96 * sqrt((0.975 * 0.025)/(100 *(f_norm)^ 2)), (对于广义的Pareto dist'n也是如此。)请尝试尝试该方法,看看会发生什么。
jbowman

@jbowman感谢您指出这一点!我会解决的!
Erosennin

@jbowman使乐队变小,并且在示例中使用我的R代码实​​际上减少了一些打击。这也是另一个错误,使计算出错,但是我现在修复了该错误。您带领我完成了这项工作,非常感谢!就GDP而言,较小的波段是个好消息,但恐怕它们仍然很大,无法使用。除了样本数量和方差应该是很大的关系,而不仅仅是样本数量,我仍然看不到其他任何收获。
Erosennin

别担心!我注意到您在第一个公式前面已经有一个了;如果您将两边都除以,例如,那可能会有所帮助。抱歉,我是第一次错过。(也许您也已解决此问题,但尚未更新问题的相关部分。)ñband = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
jbowman 2015年

1
是的,我没有注意。太太,当我运行您的代码时,在各处将sd = 1更改为sd = 2时,两次命中率几乎完全相同,分别为0.975:0.9683和0.9662。我想知道您是否错过了运行中的sd = 1 ?σ=2
jbowman 2015年

Answers:


3

我假设您的推导来自该页面上的内容

我的分布只有积极的结果,而置信区间包括负值。

好吧,给出合理的正态近似。没有什么可以阻止正态逼近为您提供负值,这就是为什么当样本量较小和/或方差较大时,它对于有界值是不好的近似值。如果增加样本大小,则间隔将缩小,因为样本大小在表达式的分母中表示间隔的宽度。方差通过密度进入问题:对于相同的平均值,较高的方差将具有不同的密度,在边缘处较高,而在中心附近较低。较低的密度意味着较宽的置信区间,因为密度在表达式的分母中。

nqnq(1q)j=nq1.96nq(1qķ=ñq-1.96ñq1个-qķ>ñĴ<1个

在下面的代码重写中,我对经验数据构造了置信度极限,并进行了测试,以查看理论分位数是否落在该范围之内。这对我来说更有意义,因为观察到的数据集的分位数是随机变量。n> 1000的覆盖率约为0.95。对于n = 100,它的差值为0.85,但对于样本量较小的尾部附近的分位数,可以预期。

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

就确定什么样本量“足够大”而言,越大越好。是否有任何特定样本“足够大”,很大程度上取决于眼前的问题,以及您对置信度范围覆盖范围之类的挑剔程度。


感谢您的贡献!我指出,我看不出有任何绝对的“大”样本,而必须考虑到差异。我对这与我构建CI的方式有何关系感到好奇,但总的来说也很好奇。至于推导,您可以例如在这里看到:math.mcgill.ca/~dstephens/OldCourses/556-2006/… 我构建的配置项是从该链接中的示例得出的。您写道:“我在经验数据上建立了置信极限...”,这对您来说更有意义。您能否详细说明一下我的CI?
Erosennin's

嗯,是的,您拥有正确的派生链接。对不起这是我的错。
Erosennin 2015年

好的,我再次对其进行了编辑,以正确地描述分布的方差如何影响您所使用的近似值,并进一步讨论“大”样本的含义。您的CI取决于理论值,而我的CI取决于经验值。我认为,为了将经验分位数与理论分位数进行比较,应该在经验分位数上构建区间。同样,我使用的近似值使“正常”近似值减少了一个,因为对中心极限定理没有吸引力。
atiretoo-恢复莫妮卡2015年

我很感谢您的努力,也许我的问题可能会更清楚。我已经意识到密度和样本大小如何影响方差,这是我的首要观点。但是,再次,我的坏,我本来可以更加清楚。我认为应该将“渐近”切换出,并考虑到方差。好吧,您也将CI置于理论值的中心。n * q恰好是您的理论值。在构造乐队时,您实际上只是通过不同的方法完成了与I相同的操作。
Erosennin 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.