为什么要使用极值理论?


18

我来自土木工程学院,在该学院中,我们使用极值理论(例如GEV分布)来预测某些事件的值,例如最大风速,即风速的 98.5%会降低到的值。

我的问题是,为什么要使用这样的极值分配?如果仅使用总体分布并获得98.5%概率的值,会不会更容易?

Answers:


24

免责声明:在以下几点,此原则假定您的数据是正态分布的。如果您实际上在进行任何工程,请与专业的统计专家进行交流,然后让该人在网上签字,说明水平。与其中五个或25个对话。这个答案是给土木工程专业的学生问“为什么”而不是给工程专业的学生问“如何”的。

我认为问题背后的问题是“极端价值分配是什么?”。是的,它是一些代数符号。所以呢?对?

让我们考虑一下1000年的洪水。他们很大。

当它们发生时,他们将杀死很多人。许多桥梁都在倒塌。
你知道哪座桥不下去吗?我做。您还没有。

问:在1000年的洪水中,哪座桥梁不会倒塌?
答:可以承受的桥。

您需要按照自己的方式做的数据:
假设您有200年的每日水数据。那里有1000年的洪水吗?不是遥远的。您有一个分布尾巴的样本。你没有人口。如果您了解所有洪水历史,那么您将拥有全部数据。让我们考虑一下。为了拥有至少一个可能性为千分之一的值,您需要多少年的数据,多少个样本?理想情况下,您至少需要1000个样本。现实世界很乱,所以您需要更多。您开始在大约4000个样本中获得50/50的赔率。您开始保证大约有20,000个样本中有1个以上。样本的意思不是“一秒钟浇水,第二秒钟浇水”,而是衡量每个独特变化源的指标-例如逐年变化。一年中的一项措施 与另一年的另一措施一起构成了两个样本。如果您没有4,000年的良好数据,那么您可能没有1000年的洪水示例。好处是-您不需要那么多数据就可以得到很好的结果。

这是使用更少的数据获得更好结果的方法:
如果查看年度最大值,则可以将“极值分布”适合于200个年最大水平值,并且您将获得包含1000年洪水的分布。 -水平。这将是代数,而不是实际的“大小”。您可以使用该公式确定1000年洪水将有多大。然后,考虑到水量,您可以建造桥来抵抗水。不要为精确的值而射击,而为更大的目标而射击,否则您将其设计为在1000年的洪水中失败。如果您大胆,则可以使用重采样来计算出要使其抵抗的确切1000年值需要超出多少。

这就是EV / GEV是相关分析形式的原因:
广义极值分布是关于最大值变化多少。最大值的变化与平均值的变化确实不同。通过中心极限定理,正态分布描述了许多“中心趋势”。

程序:

  1. 执行以下1000次:
    i。从标准正态分布中选择1000个数字
    ii。计算该组样本的最大值并将其存储
  2. 现在绘制结果的分布

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

这不是“标准正态分布”: 在此处输入图片说明

峰值为3.2,但最大值升至5.0。它有偏斜。它不会低于约2.5。如果您具有实际数据(标准法线),并且只是选择了尾巴,那么您将沿着该曲线均匀地随机选择一些东西。如果幸运的话,您将朝着中心而不是下尾巴。工程学是运气的反面-每次都始终如一地获得理想的结果。“ 随机数太重要了,不容碰运气 ”(请参阅​​脚注),特别是对于工程师而言。最适合此数据的分析功能族-分布的极值族。

拟合样本:
假设我们从标准正态分布中获得了200个最大年份的随机值,我们将假装它们是我们200年最大水位的历史(无论如何)。要获得分发,我们将执行以下操作:

  1. 采样“ store”变量(使代码简短/简单)
  2. 符合广义极值分布
  3. 找到分布的均值
  4. 使用自举法找出均值变化的95%CI上限,因此我们可以针对该目标进行工程设计。

(假定上面的代码已首先运行)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

结果如下:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

这些可以插入到生成函数中以创建20,000个样本

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

建立以下条件将使任何一年失败的几率达到50/50:

均值(y3)
3.23681

这是确定1000年“洪水”级别的代码:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

遵循以下条件,应该可以使您在1000年的洪水中失败的几率达到50/50。

p1000
4.510931

为了确定95%的较高CI,我使用了以下代码:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

结果是:

> mytarget
     95% 
4.812148

这意味着,鉴于您的数据是完全正常的(不太可能),为了抵抗绝大多数1000年的洪水,您必须针对...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

或者

> 1/(1-out)
   shape 
1077.829 

... 1078年洪水。

底线:

  • 您只有数据样本,而不是实际总人口。这意味着您的分位数是估计值,并且可能会关闭。
  • 建立诸如广义极值分布之类的分布以使用样本来确定实际尾数。即使您没有足够的样本用于经典方法,它们在估计方面的不良后果也比使用样本值少得多。
  • 如果您很健壮,则天花板会很高,但是这样做的结果是-您不会失败。

祝你好运

PS:

  • 1个/1个-0.98567
  • 鉴于上述观点,平民平均应每67年进行一次重建。因此,考虑到土木结构的使用寿命(我不知道那是什么),每67年就要花费工程和建设的全部成本(在某个时候),在较长的暴风雨期间进行工程设计可能会更便宜。可持续的民用基础设施旨在至少持续一个人类寿命而不会失败,对吗?

PS:更有趣-一部YouTube视频(不是我的视频)
https://www.youtube.com/watch?v=EACkiMRT0pc

脚注:Coveyou,RobertR。“随机数的生成非常重要,不能遗漏任何机会。” 应用概率论和蒙特卡洛方法以及动力学的现代方面。应用数学研究3(1969):70-111。


2
我可能不够清楚。我主要担心的是为什么使用extreme value distribution而不是the overall distribution拟合数据并获得98.5%的值。
cqcn1991

您所说的总人口是什么?
kjetil b halvorsen

1
更新了答案。
EngrStudent-恢复莫妮卡2015年

2
@EngrStudent很好的答案,但是,除了提供插图之外,如果您在这里展示EVT的工作方式比使用正态分布更好,那会更好。
蒂姆

2
在完成一些建模工作之后,我会说使用父级分布只是危险的,因为对于极端事件建模,数据非常少,并且外推是危险且不稳定的。这就是我们应该使用EV理论的方式。
cqcn1991'1

7

您可以使用极值理论从观察到的数据中推断。通常,您所拥有的数据根本不足以为您提供明智的尾部概率估计。以@EngrStudent的1000年中发生的事件为例:这相当于找到分布的99.9%的分位数。但是,如果您只有200年的数据,则只能计算高达99.5%的经验分位数估计。

极值理论使您可以通过对尾部分布形状的各种假设来估计99.9%的分位数:平滑,以某种模式衰减等等。

您可能会认为99.5%和99.9%之间的差异很小。毕竟只有0.4%但这是概率上的差异,当您处于困境时,它可能会转化为分位数上的巨大差异。这是伽玛分布的示意图,随着这些事情的发展,它的尾巴不会很长。蓝线对应99.5%的分位数,红线对应99.9%的分位数。尽管两者之间的差异在垂直轴上很小,但在水平轴上的间隔却很大。对于真正的长尾分布,分离只会更大。伽玛实际上是一个无害的案例。

在此处输入图片说明


您的答案不正确。每年“正常”死亡的99.9%点不对应于1000年事件中的1个。最多1000个法线具有不同的分布。我认为这在其他答案中得到了解决。
Mark L. Stone

@ MarkL.Stone我什么也没说关于最多1000个法线的任何信息。
Hong Ooi 2015年

1
这正是我的意思。1000年事件中的1应基于最大1000年正常值。这与每年正常的99.9 $点有很大的不同。请参阅下面我对Karel Macek的回答的评论。
Mark L. Stone

@ MarkL.Stone图的要点只是表明,当您处于尾巴时,概率的小变化对应于分位数的大变化。您可以代替GEV或GPD或任何其他分布的99%分位数。(而且我什至没有提到正态分布。)
Hong Ooi 2015年

此外,通过GEV估算最大值只是获得尾部分位数的一种方法。另一种方法是直接通过GPD估算分位数(假设重尾分布)。
Hong Ooi 2015年

7

如果您只对尾巴感兴趣,则可以将数据收集和分析工作集中在尾巴上。这样做应该更有效。我强调了数据收集,因为当提出EVT分布参数时,这方面经常被忽略。实际上,收集相关数据来估计您所说的某些领域的总体分布可能是不可行的。我将在下面详细解释。

如果您正在像@EngrStudent的示例那样查看1000年洪水中的1个,那么要构建正态分布的主体,您需要大量数据以使其充满观测值。潜在地,您需要过去几百年来发生的每一次洪水。

现在停下来思考一下什么是洪水?大雨过后我的后院被洪水淹没了吗?可能不是,但从非洪水事件中划定洪水的线到底在哪里?这个简单的问题突出了数据收集的问题。您如何确保数十年甚至几个世纪后,我们遵循同一标准收集人体上的所有数据?几乎不可能收集有关洪水分布的数据。

因此,这不仅是分析效率的问题,还是数据收集可行性的问题:是对整个分布建模还是对尾部建模?

自然,带有尾巴的数据收集要容易得多。如果我们为大洪水定义了足够高的阈值,那么我们就有更大的机会可能以某种方式记录所有或几乎所有此类事件。很难错过一场毁灭性的洪水,而且如果存在任何一种文明,都会有关于该事件的记忆。因此,考虑到数据收集在极端事件上要比在可靠性研究等许多领域中的非极端事件上更为健壮,因此构建专门针对尾巴的分析工具是有意义的。


+1有趣且令人信服的观点,尤其是最后的评论。
ub

(+1)与您的最后一点(保留的记忆)有关,萨德勒效应可能很有趣。
GeoMatt22

@ GeoMatt22,这是我第一次看到本文和萨德勒效应术语。感谢您的链接
Aksakal

这是一个真正的优点。它是一个系统,因此系统的方法可以具有出色的产量。世界上最好的分析可能会被垃圾数据所污染。如果提供了良好的数据,一个相当简单的分析就可以得到很好的结果。好点!
EngrStudent-恢复莫妮卡

6

通常,基础数据的分布(例如,高斯风速)是针对单个采样点的。第98个百分位会告诉您,对于任何随机选择的点,该值有大于2个百分点的可能性大于第98个百分位。

我不是土木工程师,但我想您想知道的不是在任何一天的风速超过一定数值的可能性,而是最大可能阵风的分布,例如,一年中的过程。在这种情况下,如果每天的阵风最大值呈指数分布,那么您想要的是365天内的阵风最大值分布...这就是要解决的极值分布。


1

分位数的使用使进一步的计算更加简单。土木工程师可以将值(例如,风速)代入他们的第一性原理公式中,并且他们针对对应于98.5%分位数的极端条件获得系统的行为。

整个分布的使用似乎可以提供更多的信息,但是会使计算复杂化。但是,它可以允许使用高级风险管理方法,以最佳地平衡与(i)施工和(ii)失败风险相关的成本。


好吧...我可能还不够清楚。我只想知道为什么使用极值理论而不是通常使用的一般分布(整个分布?)?
cqcn1991

1
如果任意一个实例的累积分布函数(例如每日最大风速)为F(x),则最大n个独立实例的累积分布函数(例如,一年中每日最大风速的n = 365) )是F ^ n(x)。这与F(x)不同。
Mark L. Stone
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.