Questions tagged «extreme-value»

极值是样本中最大或最小的观测值;例如,样本最小值(一阶统计量)和样本最大值(n阶统计量)。与极值相关的是渐近*极值分布*。

10
塔莱布与黑天鹅
塔莱布(Taleb)的书《黑天鹅》(The Black Swan)在几年前问世时是《纽约时报》的畅销书。这本书现在是第二版。在JSM(年度统计会议)上与统计学家会面后,Taleb在某种程度上减轻了对统计学的批评。但是本书的重点是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”不具有正态分布。 您认为这是有效的批评吗?Taleb是否缺少统计建模的一些重要方面?至少可以在估计发生概率的意义上预测稀有事件吗?

2
极值理论-显示:从正常到冈贝尔
的最大值 simiid根据极值理论,标准正态收敛于标准Gumbel分布。X1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim 我们如何证明这一点? 我们有 P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n 我们需要查找/选择常数的序列,以便:F \ left(a_n x + b_n \ right)^ n \ rightarrow ^ {n \ rightarrow \ infty} G(x )= e ^ {-\ exp(-x)}an>0,bn∈Ran>0,bn∈Ra_n>0,b_n\in\mathbb{R}F(anx+bn)n→n→∞G(x)=e−exp(−x)F(anx+bn)n→n→∞G(x)=e−exp⁡(−x)F\left(a_n …

5
为什么要使用极值理论?
我来自土木工程学院,在该学院中,我们使用极值理论(例如GEV分布)来预测某些事件的值,例如最大风速,即风速的 98.5%会降低到的值。 我的问题是,为什么要使用这样的极值分配?如果仅使用总体分布并获得98.5%概率的值,会不会更容易?


1
(近似)依赖于极值的自变量的任何示例吗?
我正在寻找2个随机变量XXX,的示例,YYY这样 |cor(X,Y)|≈0|cor(X,Y)|≈0\newcommand{\cor}{{\rm cor}}|\cor(X,Y)| \approx 0 但是当考虑分布的尾部时,它们是高度相关的。(我尝试避免尾部的“相关” /“相关”,因为它可能不是线性的)。 大概使用这个: |cor(X′,Y′)|≫0|cor(X′,Y′)|≫0|\cor(X', Y')| \gg 0 其中的条件是的,而的定义与此相同。X′X′X'X>90%X>90%X > 90\%XXXY′Y′Y'

1
男性和女性国际象棋选手-分布尾部的预期差异
我对2009年这篇论文的发现感兴趣: 为什么(最好的)女人擅长下象棋?知识领域的参与率和性别差异 本文试图解释为什么最好的国际象棋选手似乎比最好的女选手好得多(女选手仅占世界上最好的1000名选手的2%)。具体来说,他们声称最好的国际象棋棋手和最好的国际象棋棋手之间的巨大差异完全由两个事实解释: 男性下棋的人数是女性下棋人数的15倍 我们完全出于统计原因,预计该比率在分布的两端会加剧。引用本文: 即使两组的平均值(均值)和变异性(sd)相同,绩效最高的个人也更有可能来自较大的人群。两组之间的差异越大,两组中表现最好的组织之间的差异也就越大 然后再次, 这项研究表明,男女象棋选手的顶级表现差异很大,这在很大程度上可以归因于一个简单的统计事实-在较大的人群中发现了更多的极限值。 因此,根据作者的说法,如果只有6%的国际象棋棋手是女性,那么我们期望他们在前1000名中仅占2%,因此不需要其他有关生物学差异或社会偏见的解释。 我的问题 我无法理解这样一个想法,即人口规模的微小差异会在分布的极端加剧。特别是,此反例出了什么问题: 一月份出生的棋手约占十分之一。因此,它们只占所有棋手的一小部分。通过这些统计方法,我们希望他们在最高级别上的代表性不足-可能只有30名顶尖球员中有1名会在一月份出生。但是,当然,您可以对每个月应用相同的逻辑,最终得出一个荒谬的结论。 在我看来,如果将人群分为两组,那么在各个方面,您都期望拥有相同比例的表演者。 由于我与已发表论文的结果矛盾,我想我必须要问-我做错了什么?

2
欧几里得模上的尾边界,用于在
关于统一选择元素的欧几里得范数多久的已知上限 {−n, −(n−1), ..., n−1, n}d{−n, −(n−1), ..., n−1, n}d\:\{-n,~-(n-1),~...,~n-1,~n\}^d\: 将大于给定的阈值? 我主要对当nnn远小于时以指数收敛到零的范围感兴趣ddd。

2
两个独立正态随机变量的最大值(最小值)的分布是什么?
具体来说,假设和是正态随机变量(独立但不一定相同分布)。给定任何特定的,是否有一个很好的或类似概念的公式?我们是否知道\ max(X,Y)是正态分布的,也许是关于X和Y的均值和标准差的公式?我检查了平常的地方(维基百科,谷歌),但没有找到任何东西。XXXYYYaaaP(max(X,Y)≤x)P(max(X,Y)≤x)P(\max(X,Y)\leq x)max(X,Y)max(X,Y)\max(X,Y)XXXYYY

2
IID随机法线的最大阶统计量的渐近分布
是否有一个很好的极限分布最大(X1个,X2,。。。,Xñ)最大值(X1个,X2,。。。,Xñ)\max( X_1,X_2,...,X_n) 的ññn去∞∞\infty,假定它们是独立同分布的方差正态分布σ2σ2\sigma^2。 几乎可以肯定,这是一个众所周知的问题,需要有精巧的证明和好的解决方案,但是我一直在研究并且没有发现任何东西。

2
最大化艾德高斯派的最有力结果是什么?在实践中最常用?
由于X1,…,Xn,…∼N(0,1)X1,…,Xn,…∼N(0,1)X_1, \ldots, X_n, \ldots \sim \mathscr{N}(0,1) IID,考虑随机变量 Zn:=max1≤i≤nXi.Zn:=max1≤i≤nXi. Z_n := \max_{1 \le i \le n} X_i\,. 问题:这些随机变量最“重要”的结果是什么? 为了澄清“重要性”,哪个结果具有其他大多数这样的结果是合乎逻辑的结果?在实践中最常使用哪个结果? 更具体地说,似乎是(理论上的)统计学家之间的民俗知识,即至少渐近地“基本上与”。(请参阅此相关问题。)ZnZnZ_n2logn−−−−−√2log⁡n\sqrt{2 \log n} 但是,这种类型的结果有很多,而且似乎大多数情况不是等效的,也不是相互暗示的。例如∗∗^*, Zn2logn−−−−−√→a.s.1,(1)(1)Zn2log⁡n→a.s.1, \frac{Z_n}{\sqrt{2 \log n}} \overset{a.s.}{\to} 1 \,, \tag{1} 如果没有别的,也暗示了概率和分布的相应结果。 但是,它甚至似乎并不暗示也有相关的结果(请参见另一个问题),例如 limn→∞EZn2logn−−−−−√=1,(2)(2)limn→∞EZn2log⁡n=1, \lim_{n \to \infty} \frac{\mathbb{E}Z_n}{\sqrt{2 \log n}} =1 \,, \tag{2} (这是第49页的练习2.17 ),或另一个民俗结果:††\dagger EZn=2logn−−−−−√+Θ(1).(3)(3)EZn=2log⁡n+Θ(1). \mathbb{E}Z_n = \sqrt{2 \log n} …

1
使用自举获得1%的抽样分布
我有一个人口样本(大小为250)。我不知道人口的分布。 主要问题:我想要对人口的第一个百分点进行点估计,然后我希望在我的点估计周围有95%的置信区间。 我的估计值将是样本1st- percentile。我将其表示为。XXx 之后,我尝试围绕点估计值建立置信区间。我不知道在这里使用引导是否有意义。我对Bootstrap缺乏经验,所以请谅解如果我没有使用适当的术语等。 这是我尝试的方法。我从原始样本中抽取了1000个随机样本进行替换。我得到1 日从他们每个人的百分位。因此,我有1000点- “1 日 -percentiles”。我看一下这1000点的经验分布。我表示它的平均值。我将“偏差”表示为:。我走2.5 个百分位和97.5 个百分点的1000点,以获得较低和较高端我所说周围1 95%的置信区间ST百分位原始样品。我表示这些点和。X米Ë 一个ÑX米Ë一个ñx_{mean}偏差=X米Ë 一个Ñ- x偏压=X米Ë一个ñ-X\text{bias}=x_{mean}-xX0.025X0.025x_{0.025}X0.975X0.975x_{0.975} 最后剩下的步骤是适应这个置信区间是围绕1 日百分位的的人口,而不是周围的1 日百分位的的原始样本。因此,我将作为下端,将作为上端人口的第一个百分位数的点估计值附近的95%置信区间的概率。这是我一直在寻找的时间间隔。X - 偏见- (X米Ë 一个Ñ-X0.025)X-偏压-(X米Ë一个ñ-X0.025)x-\text{bias}-(x_{mean}-x_{0.025})X - 偏压+ (X0.975-X米Ë 一个Ñ)X-偏压+(X0.975-X米Ë一个ñ)x-\text{bias}+(x_{0.975}-x_{mean}) 一个关键点,在我看来,是它是否有意义的使用引导1 日百分值是相当接近人口的未知潜在分布的尾部。我怀疑这可能有问题;考虑使用引导程序在最小(或最大)附近建立置信区间。 但是,也许这种方法有缺陷吗?请告诉我。 编辑: 转念一想这个问题有点多,我看到我的解决方案意味着:经验1 日百分原始样品的可能是1的偏估计ST百分点的人口。如果是这样,则应该对点估计值进行偏差调整:。否则,偏差调整后的置信区间将与偏差未经调整的点估计不兼容。我需要调整点估计和置信区间,或者都不调整。X - 偏置X-偏压x-\text{bias} 另一方面,如果我不允许估计有偏差,则不必进行偏差调整。也就是说,我将作为点估计,将作为下限,将作为95%的上限。置信区间。我不确定这个间隔是否合理...XXxx − (X米Ë 一个Ñ-X0.025)X-(X米Ë一个ñ-X0.025)x-(x_{mean}-x_{0.025})x + (X0.975-X米Ë 一个Ñ)X+(X0.975-X米Ë一个ñ)x+(x_{0.975}-x_{mean}) 所以,这有什么意义假设样品1 日百分比是人口1的偏估计ST百分?如果不是,我的替代解决方案是否正确?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.