Answers:
免责声明:在以下几点,此原则假定您的数据是正态分布的。如果您实际上在进行任何工程,请与专业的统计专家进行交流,然后让该人在网上签字,说明水平。与其中五个或25个对话。这个答案是给土木工程专业的学生问“为什么”而不是给工程专业的学生问“如何”的。
我认为问题背后的问题是“极端价值分配是什么?”。是的,它是一些代数符号。所以呢?对?
让我们考虑一下1000年的洪水。他们很大。
当它们发生时,他们将杀死很多人。许多桥梁都在倒塌。
你知道哪座桥不下去吗?我做。您还没有。
问:在1000年的洪水中,哪座桥梁不会倒塌?
答:可以承受的桥。
您需要按照自己的方式做的数据:
假设您有200年的每日水数据。那里有1000年的洪水吗?不是遥远的。您有一个分布尾巴的样本。你没有人口。如果您了解所有洪水历史,那么您将拥有全部数据。让我们考虑一下。为了拥有至少一个可能性为千分之一的值,您需要多少年的数据,多少个样本?理想情况下,您至少需要1000个样本。现实世界很乱,所以您需要更多。您开始在大约4000个样本中获得50/50的赔率。您开始保证大约有20,000个样本中有1个以上。样本的意思不是“一秒钟浇水,第二秒钟浇水”,而是衡量每个独特变化源的指标-例如逐年变化。一年中的一项措施 与另一年的另一措施一起构成了两个样本。如果您没有4,000年的良好数据,那么您可能没有1000年的洪水示例。好处是-您不需要那么多数据就可以得到很好的结果。
这是使用更少的数据获得更好结果的方法:
如果查看年度最大值,则可以将“极值分布”适合于200个年最大水平值,并且您将获得包含1000年洪水的分布。 -水平。这将是代数,而不是实际的“大小”。您可以使用该公式确定1000年洪水将有多大。然后,考虑到水量,您可以建造桥来抵抗水。不要为精确的值而射击,而为更大的目标而射击,否则您将其设计为在1000年的洪水中失败。如果您大胆,则可以使用重采样来计算出要使其抵抗的确切1000年值需要超出多少。
这就是EV / GEV是相关分析形式的原因:
广义极值分布是关于最大值变化多少。最大值的变化与平均值的变化确实不同。通过中心极限定理,正态分布描述了许多“中心趋势”。
程序:
现在绘制结果的分布
#libraries
library(ggplot2)
#parameters and pre-declarations
nrolls <- 1000
ntimes <- 10000
store <- vector(length=ntimes)
#main loop
for (i in 1:ntimes){
#get samples
y <- rnorm(nrolls,mean=0,sd=1)
#store max
store[i] <- max(y)
}
#plot
ggplot(data=data.frame(store), aes(store)) +
geom_histogram(aes(y = ..density..),
col="red",
fill="green",
alpha = .2) +
geom_density(col=2) +
labs(title="Histogram for Max") +
labs(x="Max", y="Count")
这不是“标准正态分布”:
峰值为3.2,但最大值升至5.0。它有偏斜。它不会低于约2.5。如果您具有实际数据(标准法线),并且只是选择了尾巴,那么您将沿着该曲线均匀地随机选择一些东西。如果幸运的话,您将朝着中心而不是下尾巴。工程学是运气的反面-每次都始终如一地获得理想的结果。“ 随机数太重要了,不容碰运气 ”(请参阅脚注),特别是对于工程师而言。最适合此数据的分析功能族-分布的极值族。
拟合样本:
假设我们从标准正态分布中获得了200个最大年份的随机值,我们将假装它们是我们200年最大水位的历史(无论如何)。要获得分发,我们将执行以下操作:
(假定上面的代码已首先运行)
library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE) #this is our data
myfit <- gevmle(y2)
结果如下:
> gevmle(y2)
loc scale shape
3.0965530 0.2957722 -0.1139021
这些可以插入到生成函数中以创建20,000个样本
y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])
建立以下条件将使任何一年失败的几率达到50/50:
均值(y3)
3.23681
这是确定1000年“洪水”级别的代码:
p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000
遵循以下条件,应该可以使您在1000年的洪水中失败的几率达到50/50。
p1000
4.510931
为了确定95%的较高CI,我使用了以下代码:
myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021
N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)
for (i in 1:N){
#generate samples
yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)
#compute fit
fit_d <- gevmle(yd)
#compute quantile
p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
}
mytarget <- quantile(p_1000,probs=0.95)
结果是:
> mytarget
95%
4.812148
这意味着,鉴于您的数据是完全正常的(不太可能),为了抵抗绝大多数1000年的洪水,您必须针对...
> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)
或者
> 1/(1-out)
shape
1077.829
... 1078年洪水。
底线:
祝你好运
PS:
PS:更有趣-一部YouTube视频(不是我的视频)
https://www.youtube.com/watch?v=EACkiMRT0pc
脚注:Coveyou,RobertR。“随机数的生成非常重要,不能遗漏任何机会。” 应用概率论和蒙特卡洛方法以及动力学的现代方面。应用数学研究3(1969):70-111。
您可以使用极值理论从观察到的数据中推断。通常,您所拥有的数据根本不足以为您提供明智的尾部概率估计。以@EngrStudent的1000年中发生的事件为例:这相当于找到分布的99.9%的分位数。但是,如果您只有200年的数据,则只能计算高达99.5%的经验分位数估计。
极值理论使您可以通过对尾部分布形状的各种假设来估计99.9%的分位数:平滑,以某种模式衰减等等。
您可能会认为99.5%和99.9%之间的差异很小。毕竟只有0.4%但这是概率上的差异,当您处于困境时,它可能会转化为分位数上的巨大差异。这是伽玛分布的示意图,随着这些事情的发展,它的尾巴不会很长。蓝线对应99.5%的分位数,红线对应99.9%的分位数。尽管两者之间的差异在垂直轴上很小,但在水平轴上的间隔却很大。对于真正的长尾分布,分离只会更大。伽玛实际上是一个无害的案例。
如果您只对尾巴感兴趣,则可以将数据收集和分析工作集中在尾巴上。这样做应该更有效。我强调了数据收集,因为当提出EVT分布参数时,这方面经常被忽略。实际上,收集相关数据来估计您所说的某些领域的总体分布可能是不可行的。我将在下面详细解释。
如果您正在像@EngrStudent的示例那样查看1000年洪水中的1个,那么要构建正态分布的主体,您需要大量数据以使其充满观测值。潜在地,您需要过去几百年来发生的每一次洪水。
现在停下来思考一下什么是洪水?大雨过后我的后院被洪水淹没了吗?可能不是,但从非洪水事件中划定洪水的线到底在哪里?这个简单的问题突出了数据收集的问题。您如何确保数十年甚至几个世纪后,我们遵循同一标准收集人体上的所有数据?几乎不可能收集有关洪水分布的数据。
因此,这不仅是分析效率的问题,还是数据收集的可行性的问题:是对整个分布建模还是对尾部建模?
自然,带有尾巴的数据收集要容易得多。如果我们为大洪水定义了足够高的阈值,那么我们就有更大的机会可能以某种方式记录所有或几乎所有此类事件。很难错过一场毁灭性的洪水,而且如果存在任何一种文明,都会有关于该事件的记忆。因此,考虑到数据收集在极端事件上要比在可靠性研究等许多领域中的非极端事件上更为健壮,因此构建专门针对尾巴的分析工具是有意义的。
通常,基础数据的分布(例如,高斯风速)是针对单个采样点的。第98个百分位会告诉您,对于任何随机选择的点,该值有大于2个百分点的可能性大于第98个百分位。
我不是土木工程师,但我想您想知道的不是在任何一天的风速超过一定数值的可能性,而是最大可能阵风的分布,例如,一年中的过程。在这种情况下,如果每天的阵风最大值呈指数分布,那么您想要的是365天内的阵风最大值分布...这就是要解决的极值分布。
分位数的使用使进一步的计算更加简单。土木工程师可以将值(例如,风速)代入他们的第一性原理公式中,并且他们针对对应于98.5%分位数的极端条件获得系统的行为。
整个分布的使用似乎可以提供更多的信息,但是会使计算复杂化。但是,它可以允许使用高级风险管理方法,以最佳地平衡与(i)施工和(ii)失败风险相关的成本。
extreme value distribution
而不是the overall distribution
拟合数据并获得98.5%的值。