中心极限定理和帕累托分布


10

Answers:


15

α

α>2

请参阅此处的经典中心极限定理的描述

引用有点奇怪,因为中心极限定理(以任何上述形式)不适用于样本均值本身,而是适用于标准化均值(并且如果我们尝试将其应用于均值和方差为不是有限的,我们需要非常仔细地解释一下我们实际上在说什么,因为分子和分母所涉及的事物没有有限的限制。

不过,尽管没有正确地表达有关中心极限定理的说法,但它确实有一个基本点-样本均值不会收敛于总体均值(弱的大数定律不成立,因为定义均值的积分不是有限的)。


n>1010100

E(|X|3)

α>3n


2
α>2α>3

@kjetil相当;在实践中,您需要的不仅仅是第二刻,因为收敛可能会毫无用处地缓慢。
Glen_b-恢复莫妮卡

1
是的,我将添加答案以表明这一点!
kjetil b halvorsen

2
可以将一些不遵循中心极限定理的分布标准化,以收敛到稳定定律。
Michael R. Chernick

这里很棒的讨论。希望stackexchange有一种方法可以遵循人们的答案/评论;)
Chan-Ho Suh

9

α>2

α=2.1α=3.1

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

这是情节:

模拟pareto均值,直方图

n=10000σ2=1。考虑这一点的实用方法如下。通常建议使用帕累托分布来模拟收入(或财富)分布。很少的十亿公顷的收入(或财富)的期望将有很大的贡献。用实际样本量进行抽样的可能性很小,即样本中包括十亿公顷!


3

我喜欢已经给出的答案,但认为“外行人的解释”有很多技术问题,因此我将尝试更直观的方法(从等式开始...)。

p

μ=xp(x)dx
xxxxp(x)xp(x)p(x)μp

x¯=1nixiμpnnx¯np

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

在此处输入图片说明

这是一个典型的实现,样本均值非常恰当地收敛于密度均值(并且以中心极限定理给出的平均值)。让我们对没有均值的pareto分布执行相同的操作(用rnorm(N,1,1);替换pareto(N,1.1,1);)

在此处输入图片说明

p(x)xxx

n(xμ)2p(x)dx

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.