有限方差和无限方差有什么区别?我的统计知识非常基础;维基百科/谷歌在这里没有太多帮助。
有限方差和无限方差有什么区别?我的统计知识非常基础;维基百科/谷歌在这里没有太多帮助。
Answers:
随机变量具有“无限方差”是什么意思?随机变量具有无限期望是什么意思?两种情况下的解释都非常相似,因此让我们从期望的情况开始,然后再进行期望的变化。
设是连续型随机变量(RV)(我们的结论将是有效的更普遍,对于分立的情况下,通过更换和积分)。为了简化论述,让我们假设X ≥ 0。
它的期望由积分E X =定义 当该积分存在时,即是有限的。另外,我们说期望不存在。这是一个不正确的积分,并且通过定义是 ∫ ∞ 0 X ˚F (X )
在许多情况下,这似乎是不现实的。假设有一个(人寿)保险模型,所以模拟一些(人)寿险。我们知道不会出现X > 1000,但是实际上我们使用的模型没有上限。原因很清楚:没有硬上限是已知的,如果一个人(比如说)一百一十岁,没有理由他不能活一年以上!因此,具有严格上限的模型似乎是人为的。不过,我们不希望极端的尾巴产生很大影响。
如果的期望值是有限的,那么我们可以将模型更改为硬上限,而不会对模型产生不适当的影响。在模糊上限的情况下,这似乎很好。如果模型有无限的期望,那么,我们为模型引入的任何硬上限都会产生戏剧性的后果!那就是无限期望的真正重要性。
有了有限的期望,我们就可以模糊上限。有无限的期望,我们不能。
现在,就必要的必要变数而言,可以说几乎相同。
为了更清楚一点,让我们看一个例子。对于本示例,我们使用在R包(在CRAN上)执行器中实现的Pareto分布,即pareto1 ---单参数Pareto分布,也称为Pareto类型1分布。它具有由 某些参数中号>0,α>0。当α>
当期望存在时(),我们可以将其除以得到相对的一阶矩分布,由 E r (M )= E (m )/ E (∞ )= 1给出 当α是只是一点点比一个大,所以期望“刚刚几乎不存在”,确定预期的积分会慢慢收敛。让我们看一下m=1,α=1.2的示例。让我们绘制然后E
### Function for opening new plot file:
open_png <- function(filename) png(filename=filename,
type="cairo-png")
library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm and used some times at cross validated
m <- 1.0
alpha <- 1.2
# Expectation:
E <- m * (alpha/(alpha-1))
# upper limit for plots:
upper <- qpareto1(0.99, alpha, m)
#
open_png("first_moment_dist1.png")
Er <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function, giving
# what we may call "expectation quantiles":
Er_inv <- function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))
plot(function(M) Er(M, m, alpha), from=1.0, to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0, to=upper, add=TRUE, col="red")
dev.off()
产生这个情节:
上面定义的函数Er_inv是相对的第一矩的逆分布,类似于分位数函数。我们有:
> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example
eq <- Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq
> > > [1] 0.984375
> [1] 32
>
set.seed(1234)
n <- 5
N <- 10000000 # Number of simulation replicas
means <- replicate(N, mean(rpareto1(n, alpha, m) ))
> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136
为了获得可读的图,我们仅显示值小于100的样本部分的直方图,这是样本的很大一部分。
open_png("mean_sim_hist1.png")
hist(means[means<=100], breaks=100, probability=TRUE)
dev.off()
算术平均值的分布非常偏斜,
> sum(means <= 6)/N
[1] 0.8596413
>
几乎86%的经验均值小于或等于理论均值,即期望值。 这是我们应该期望的,因为对均值的大部分贡献来自极高的尾巴,这在大多数样本中都没有体现。
我们需要回头重新评估我们先前的结论。尽管均值的存在使得可以对上限进行模糊处理,但是我们看到,当“均值几乎不存在”时,意味着积分在缓慢收敛,我们实际上不能对上限进行模糊处理。缓慢收敛的积分的结果是,最好使用不假定期望存在的方法。当积分非常缓慢地收敛时,实际上它似乎根本就没有收敛。收敛积分带来的实际好处是在缓慢收敛情况下的嵌合体!这是理解NN Taleb在http://fooledbyrandomness.com/complexityAugust-06.pdf中得出的结论的一种方法。
方差是对随机变量值分布的分散程度的度量。这不是唯一的测量方法,例如平均绝对偏差是替代方法之一。
无限变化意味着随机值不倾向于集中围绕平均值得太紧。这可能意味着有足够大的概率是一个随机数将是非常远离平均值。
像正态分布(高斯分布)一样,可以产生远离均值的随机数,但是此类事件的概率随着偏差的幅度而迅速降低。
在这方面,当您查看柯西分布或高斯(正态)分布图时,它们在外观上看起来并没有很大不同。但是,如果您尝试计算柯西分布的方差,它将是无限的,而高斯分布是有限的。因此,与柯西的分布相比,正态分布的均值更加紧密。
顺便说一句,如果您与数学家交谈,他们会坚持认为柯西分布没有明确的均值,它是无限的。对于那些指出柯西对称的事实的物理学家来说,这听起来很荒谬,因此,它必然会有平均值。在这种情况下,他们认为问题出在您对均值的定义上,而不是柯西分布上。
另一种查看方法是分位数功能。
然后我们可以计算一个时刻或期望
或者作为(替换 ):
假设我们希望先计算一下 。在下图中,它对应于F和垂直线之间的区域 (其中,当 )。第二弯矩将对应于同一区域沿线在处旋转时扫过的体积。 (有一个因素 区别)。
图像中的曲线显示了每个分位数对计算的贡献。
对于正态曲线,只有很少的分位数具有很大的贡献。但是对于柯西曲线,还有更多的分位数具有很大的贡献。如果曲线 当F接近零或一时,速度足够快到无穷大,则面积可以无限大。
由于被积物本身的距离(均值)或平方距离(方差)可能变为无穷大,所以这个无限可能并不那么奇怪。只是多少体重那些无限的尾巴有,多少F。
在距零(均值)的距离或距均值(方差)的平方距离的总和/积分中,相距很远的单个点比附近的许多点对平均距离(或平方距离)的影响更大。
因此,当我们移向无穷远时,密度可能会降低,但是对某些(增加的)数量之和的影响(例如距离或平方距离)不一定会改变。
如果对于一定距离的每个质量 一段距离内有一半或更多的质量 那么你会得到总质量的总和 会收敛,因为质量的贡献减少了,但是方差变得无限大,因为质量的贡献没有减少
您遇到的大多数分布可能具有有限的方差。这是一个离散的例子 具有无限方差但均值有限:
令其概率质量函数为 ,对于 , ,在哪里 。首先因为它具有有限的均值。它也有无限方差,因为。
注意: 是黎曼zeta函数。还有许多其他示例,只是写下来并不那么愉快。