中心极限定理和帕累托分布

有人可以提供有关帕累托分布和中心极限定理之间关系的简单解释（例如，适用吗？为什么/为什么不呢？）？我试图理解以下陈述：

“中心极限定理不适用于所有分布。这是由于一个偷偷摸摸的事实-样本均值聚集在基础分布的均值周围（如果存在的话）。但是分布如何没有均值呢？帕累托分布没有任何意义。如果您尝试使用通常的方法进行计算，则它会发散到无穷大。”

— 用户名
source

Answers:

$\alpha$

$\alpha>2$

请参阅此处的经典中心极限定理的描述

引用有点奇怪，因为中心极限定理（以任何上述形式）不适用于样本均值本身，而是适用于标准化均值（并且如果我们尝试将其应用于均值和方差为不是有限的，我们需要非常仔细地解释一下我们实际上在说什么，因为分子和分母所涉及的事物没有有限的限制。

不过，尽管没有正确地表达有关中心极限定理的说法，但它确实有一个基本点-样本均值不会收敛于总体均值（弱的大数定律不成立，因为定义均值的积分不是有限的）。

$n> 10^{10^{100}}$

$E(|X|^3)$

$\alpha\gt 3$ $n$

— Glen_b-恢复莫妮卡
source

α > 2

$\alpha > 2$

α > 3

$\alpha > 3$

@kjetil相当；在实践中，您需要的不仅仅是第二刻，因为收敛可能会毫无用处地缓慢。

— Glen_b-恢复莫妮卡

是的，我将添加答案以表明这一点！

— kjetil b halvorsen

可以将一些不遵循中心极限定理的分布标准化，以收敛到稳定定律。

— Michael R. Chernick

这里很棒的讨论。希望stackexchange有一种方法可以遵循人们的答案/评论；）

— Chan-Ho Suh

$\alpha > 2$

$\alpha=2.1$ $\alpha=3.1$

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

这是情节：

$n=10000$ $\sigma^2=1$ 。考虑这一点的实用方法如下。通常建议使用帕累托分布来模拟收入（或财富）分布。很少的十亿公顷的收入（或财富）的期望将有很大的贡献。用实际样本量进行抽样的可能性很小，即样本中包括十亿公顷！

— 凯捷蒂尔·哈沃森
source

我喜欢已经给出的答案，但认为“外行人的解释”有很多技术问题，因此我将尝试更直观的方法（从等式开始...）。

$p$

μ = \int x \cdot p (x) d x

$\mu = \int x \cdot p(x) dx$

x

$x$

x

$x$

x

$x$

x

$x$

p (x)

$p(x)$

x \cdot p (x)

$x \cdot p(x)$

p (x)

$p(x)$

μ

$\mu$

p

$p$

$\bar{x}=\frac{1}{n} \sum_i x_i$ $\mu$ $p$ $n$ $n$ $\bar{x}$ $n$ $p$

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

这是一个典型的实现，样本均值非常恰当地收敛于密度均值（并且以中心极限定理给出的平均值）。让我们对没有均值的pareto分布执行相同的操作（用rnorm（N，1,1）;替换pareto（N，1.1,1）;）

$p(x) \cdot x$ $x$ $x$

$n$ $\int (x-\mu)^2 p(x) dx$

— eu
source