经验分布替代

赏金：

完整的奖金将颁发给别人谁提供任何发表的论文，它使用或提及的估计参考以下。 $\tilde{F}$

动机：

本部分对您可能并不重要，我怀疑它不会帮助您获得赏金，但是由于有人问了动机，这就是我正在努力的目标。

我正在研究统计图论问题。标准稠密图限制性目的是在这个意义上的对称函数，。取样在图上顶点可以被认为是取样在单位间隔均匀值（为 $W : [0,1]^2 \to [0,1]$ $W(u,v) = W(v,u)$ $n$ $n$ $U_i$ $i = 1, \dots, n$ ），那么边的概率为。我们得到的邻接矩阵被称为。 $(i,j)$ $W(U_i, U_j)$ $A$

我们可以把作为密度假设。如果我们基于估计，而对没有任何约束，那么我们将无法获得一致的估计。我发现一个有趣的结果，当来自一组可能的函数时，不断估计。从这个估计和，我们可以估算。 $W$ $f = W / \iint W$ $\iint W > 0$ $f$ $A$ $f$ $f$ $f$ $\sum A$ $W$

不幸的是，当我们从密度为的分布中采样时，我发现的方法显示出一致性。构造的方式要求我对点网格进行采样（与从原始进行绘制相反）。在这个stats.SE问题中，我要求的是一维（简单）问题，当我们只能在像这样的网格上对Bernoullis进行采样而不是直接从分布中进行采样时会发生什么。 $f$ $A$ $f$

图形限制参考：

L. Lovasz和B. Szegedy。密集图序列的极限（arxiv）。

C. Borgs，J。Chayes，L。Lovasz，V。Sos和K. Vesztergombi。密集图的收敛序列i：子图频率，度量标准属性和测试。（arxiv）。

符号：

考虑一个具有连续分布CDF 和pdf 这对间隔的正支持。假设没有pointmass，无处不微的，而且也是是上确界在区间。让意味着随机变量 $F$ $f$ $[0,1]$ $f$ $F$ $\sup_{z \in [0,1]} f(z) = c < \infty$ $f$ $[0,1]$ $X \sim F$ 是从分布采样的。是独立同分布的上均匀随机变量。 $X$ $F$ $U_i$ $[0,1]$

问题设置：

通常，我们可以让与分布的随机变量和与通常的工作经验分布函数作为 $X_1, \dots, X_n$ $F$ 其中是指示符函数。请注意，此经验分布本身是随机（其中被固定）。

{\hat{F}}_{n} (t) = \frac{1}{n} \sum_{i = 1}^{n} I {X_{i} \leq t}

$\hat{F}_n(t) = \frac{1}{n} \sum_{i=1}^n I\{X_i \leq t\}$

I

$I$

{\hat{F}}_{n} (t)

$\hat{F}_n(t)$

t

$t$

不幸的是，我无法直接从提取样本。然而，我知道只对正支撑，并且我可以生成随机变量其中是与成功的概率伯努利分布的随机变量其中和 $F$ $f$ $[0,1]$ $Y_1, \dots, Y_n$ $Y_i$

p_{i} = f ((i - 1 + U_{i}) / n) / c

$p_i = f((i-1+U_i)/n)/c$

c

$c$

的定义如上。因此，

。我可能估计一个明显的方法

从这些

值是通过取

U_{i}

$U_i$

Y_{i} \sim Bern (p_{i})

$Y_i \sim \text{Bern}(p_i)$

F

$F$

Y_{i}

$Y_i$

其中

是上取整函数（即，刚轮到最接近的整数），并且如果重绘

（以避免除以零并使Universe崩溃）。需要注意的是

也是随机变量，因为

是随机变量。

{\tilde{F}}_{n} (t) = \frac{1}{\sum_{i = 1}^{n} Y_{i}} \sum_{i = 1}^{⌈ t n ⌉} Y_{i}

$\tilde{F}_n(t) = \frac{1}{\sum_{i=1}^n Y_i} \sum_{i=1}^{\lceil tn \rceil} Y_i$

⌈ \cdot ⌉

$\lceil \cdot \rceil$

\sum_{i = 1}^{n} Y_{i} = 0

$\sum_{i=1}^n Y_i = 0$

\tilde{F} (t)

$\tilde{F}(t)$

Y_{i}

$Y_i$

问题：

从（我认为应该是）最容易到最困难。

有谁知道这是否（或类似的东西），有一个名字？您可以提供参考，以查看其某些属性吗？ $\tilde{F}_n$
由于，是的一致估计（和你能证明这一点）？ $n \to \infty$ $\tilde{F}_n(t)$ $F(t)$
什么是的极限分布作为？ $\tilde{F}_n(t)$ $n \to \infty$
理想情况下，我想将以下内容约束为的函数-例如， $n$ $O_P(\log(n) /\sqrt{n})$ $O_P$

sup_{C \subset [0, 1]} \int_{C} | {\tilde{F}}_{n} (t) - F (t) | d t

$\sup_{C \subset [0,1]} \int_C |\tilde{F}_n(t) - F(t)| \, dt$

一些想法和注意事项：

这看起来很像带有基于网格的分层的拒绝接受采样。请注意，这并不是因为，如果我们拒绝该提议，我们不会再绘制另一个样本。
$\tilde{F}_n$
${\tilde{F^{*}}}_{n} (t) = \frac{c}{n} \sum_{i = 1}^{⌈ t n ⌉} Y_{i}$ $\tilde{F^*}_n(t) = \frac{c}{n} \sum_{i=1}^{\lceil tn \rceil} Y_i$ $\mathbb{P}\left(\tilde{F^*}(1) = 1\right) < 1$
$\tilde{F}_n$

R中的例子

$\tilde{F}_n$

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

从以上数据输出

编辑：

编辑1-

我对此进行了编辑，以解决@whuber的评论。

编辑2-

我添加了R代码并对其进行了更多清理。为了便于阅读，我略微更改了表示法，但是本质上是相同的。我计划在允许的情况下尽快对此进行赏金，因此，如果您需要进一步的说明，请告诉我。

编辑3-

我想我说了@cardinal的话。我修正了总体变化中的错字。我要加赏金

编辑4-

为@cardinal添加了“动机”部分。

— 用户名
source

f

$f$

F

$F$

sup_{z} f (z)

$\sup_z f(z)$

sup

$\sup$

感谢@whuber的意见。请让我知道修订后的问题是否仍然令人困惑。

— user1448319 2013年

n

$n$

n

$n$

{i / n}

$\{i/n\}$

f

$f$

F

$F$

F

$F$

p_{i}

$p_i$

Y_{i, n}

$Y_{i,n}$

i = 1, \dots, n

$i=1,\ldots,n$

p_{i}

$p_i$

f (U) / c

$f(U)/c$

U

$U$ 是一个统一的随机变量。真的吗？（对您的问题的更多了解可能会解决很多这样的问题。）干杯。

— 红衣主教

这个问题已经改善了很多，直到我意识到自己之前已经看过评论，我什至没有意识到。现在这是一个非常有趣且写得更好的问题。

— Glen_b-恢复莫妮卡

Answers:

虽然这个参考

编辑：对非常类似的统计信息的补充参考 “来自不完整观测的非参数估计” EL Kaplan和Paul Meier，《美国统计协会杂志》，第1卷。53，282（1958年6月），第457-481页

$[0,1]$ $[0,\infty)$

一旦表现良好，就可以通过内核平滑对偏差进行合理估计（例如，参见 Wikipedia上的Khmaladze变换）。

$f = W / \iint W$ $A$

— 詹姆斯·普里查德
source

这回答了上面的问题2和3。我仍然真的想要一个参考（来自问题1）。

$\sum Y_i = 0$

$g(A,B) = A/(A+B)$

\begin{aligned} g_{A} (A, B) & = (A + B)^{- 1} + A (A + B)^{- 2} \\ g_{B} (A, B) & = - A (A + B)^{- 2} \\ g_{A A} (A, B) & = 2 B (A + B)^{- 3} \\ g_{A B} (A, B) & = (A - B) (A + B)^{- 3} \\ g_{B B} (B, B) & = 2 A (A + B)^{- 3} \end{aligned}

$\begin{align} g_A(A,B) &= (A+B)^{-1} + A(A+B)^{-2}\\ g_B(A,B) &= -A(A+B)^{-2}\\ g_{AA}(A,B) &= 2B(A+B)^{-3}\\ g_{AB}(A,B) &= (A-B)(A+B)^{-3}\\ g_{BB}(B,B) &= 2A(A+B)^{-3} \end{align}$

p_{i} = f ((i - 1 + U_{i}) / n) / c

$p_i = f((i-1+U_i)/n)/c$

\begin{aligned} R = \frac{1}{n} \sum_{i = 1}^{⌈ n t ⌉} Y_{i}, & μ_{R} = E (R) = \int_{0}^{t} p (u) d u = c^{- 1} F (t) \\ S = \frac{1}{n} \sum_{⌈ n t ⌉ + 1}^{n} Y_{i}, & μ_{S} = E (S) = \int_{t}^{1} p (u) d u = c^{- 1} (1 - F (t)) \end{aligned}

$\begin{align} R = \frac{1}{n}\sum_{i=1}^{\lceil nt \rceil} Y_i, \quad& \mu_R = \mathbb{E}(R) = \int_0^t p(u) \, d u = c^{-1}F(t)\\ S = \frac{1}{n}\sum_{\lceil nt \rceil +1}^n Y_i, \quad& \mu_S = \mathbb{E}(S) = \int_t^1 p(u) \, d u = c^{-1}(1-F(t)) \end{align}$

μ_{R} + μ_{S} = c^{- 1} F (t) + c^{- 1} (1 - F (t)) = c^{- 1}

$\mu_R + \mu_S = c^{-1}F(t) + c^{-1}(1-F(t)) = c^{-1}$

g (μ_{R}, μ_{S}) = F (t)

$g(\mu_R, \mu_S) = F(t)$

\begin{aligned} Var (R) & = \frac{1}{n^{2}} \sum_{i = 1}^{⌈ n t ⌉} Var (Y_{i}) = \frac{1}{n} \int_{0}^{t} f (u) / c (1 - f (u) / c) d u = \frac{1}{n c^{2}} \int_{0}^{t} f (u) (c - f (u)) d u \\ Var (S) & = \frac{1}{n c^{2}} \int_{t}^{1} f (u) (c - f (u)) d u \end{aligned}

$\begin{align} \text{ Var}(R) &= \frac{1}{n^2} \sum_{i=1}^{\lceil nt \rceil} \text{ Var}(Y_i) = \frac{1}{n} \int_0^t f(u)/c(1-f(u)/c) \, d u = \frac{1}{nc^2} \int_0^t f(u)(c-f(u)) \, d u\\ \text{ Var}(S) &= \frac{1}{nc^2} \int_t^1 f(u)(c-f(u)) \, d u \end{align}$

Cov (R, S) = 0

$\text{ Cov}(R,S) = 0$

Y_{i}

$Y_i$

现在，我们使用泰勒展开式

\begin{aligned} E ({\tilde{F}}_{n} (t)) = E (\frac{1}{\sum_{i = 1}^{n} Y_{i}} \sum_{i = 1}^{⌈ t n ⌉} Y_{i}) = E (\frac{n R}{n R + n S}) = E (\frac{R}{R + S}) = E (g (R, S)) \\ = g (μ_{R}, μ_{S}) + \frac{1}{2} E ((R - μ_{R})^{2}) g_{R R} (μ_{R}, μ_{S}) \\ + E ((R - μ_{R}) (S - μ_{S})) g_{R S} (μ_{R}, μ_{S}) + \frac{1}{2} E ((S - μ_{S})^{2}) g_{S S} (μ_{R}, μ_{S}) + \dots \\ = F (t) + \frac{1}{2} E ((R - μ_{R})^{2}) 2 μ_{S} (μ_{R} + μ_{S})^{- 3} \\ + E ((R - μ_{R}) (S - μ_{S})) (μ_{R} - μ_{S}) (μ_{R} + μ_{S})^{- 3} \\ + \frac{1}{2} E ((S - μ_{S})^{2}) 2 μ_{R} (μ_{R} + μ_{S})^{- 3} + \dots \\ = F (t) + (μ_{R} + μ_{S})^{- 3} (E ((R - μ_{R})^{2}) μ_{S} + E ((R - μ_{R}) (S - μ_{S})) (μ_{R} - μ_{S}) \\ + E ((S - μ_{S})^{2}) μ_{R}) + \dots \\ = F (t) + c^{3} (Var (R) c (1 - F (t)) \\ + Cov (R, S) (c F (t) - c (1 - F (t))) + Var (S) c F (t)) + \dots \\ = F (t) + c^{4} ((\frac{1}{n} \int_{0}^{t} f (u) (c - f (u)) d u) (1 - F (t)) \\ + (\frac{1}{n} \int_{t}^{1} f (u) (c - f (u)) d u) F (t)) + \dots \\ = F (t) + {\tilde{V}}_{F (t)} / n + \dots \\ = F (t) + O (n^{- 1}) \end{aligned}

$\begin{align} &\mathbb{E}\left(\tilde{F}_n(t)\right) =\mathbb{E}\left( \frac{1}{\sum_{i=1}^n Y_i} \sum_{i=1}^{\lceil tn \rceil} Y_i \right) =\mathbb{E}\left(\frac{nR}{nR+nS}\right) =\mathbb{E}\left(\frac{R}{R+S}\right) =\mathbb{E}\left(g(R,S)\right)\\ &=g(\mu_R,\mu_S) + \frac{1}{2}\mathbb{E}((R - \mu_R)^2)g_{RR}(\mu_R, \mu_S) \nonumber\\ &\quad + \mathbb{E}((R - \mu_R)(S-\mu_S))g_{RS}(\mu_R, \mu_S) + \frac{1}{2}\mathbb{E}((S - \mu_S)^2)g_{SS}(\mu_R, \mu_S) + \dots \\ &= F(t) + \frac{1}{2}\mathbb{E}((R - \mu_R)^2)2\mu_S(\mu_R+\mu_S)^{-3} \nonumber\\ &\quad + \mathbb{E}((R - \mu_R)(S-\mu_S))(\mu_R-\mu_S)(\mu_R+\mu_S)^{-3} \nonumber\\ &\quad + \frac{1}{2}\mathbb{E}((S - \mu_S)^2) 2\mu_R(\mu_R+\mu_S)^{-3} + \dots\\ &= F(t) + (\mu_R+\mu_S)^{-3} \bigg( \mathbb{E}((R - \mu_R)^2)\mu_S + \mathbb{E}((R - \mu_R)(S-\mu_S))(\mu_R-\mu_S) \nonumber\\ &\quad + \mathbb{E}((S - \mu_S)^2) \mu_R \bigg) + \dots \\ &= F(t) + c^3 \left( \text{ Var}(R)c(1-F(t)) \right. \nonumber\\ &\quad + \left.\text{ Cov}(R,S)(cF(t) - c(1-F(t))) + \text{ Var}(S) cF(t) \right) + \dots \\ &= F(t) + c^4 \left( \left(\frac{1}{n} \int_0^t f(u)(c-f(u)) \, d u\right) (1-F(t)) \right. \nonumber\\ &\quad \left. + \left(\frac{1}{n} \int_t^1 f(u)(c-f(u)) \, d u \right) F(t) \right) + \dots\\ &= F(t) + \tilde{V}_{F(t)}/n + \dots\\ &= F(t) + {\cal O}(n^{-1}) \end{align}$

\begin{aligned} {\tilde{V}}_{F (t)} & = c^{2} (\int_{0}^{t} f (u) (c - f (u)) d u) (1 - F (t)) + c^{2} (\int_{t}^{1} f (u) (c - f (u)) d u) F (t) \\ < c^{2} (\int_{0}^{t} c f (u) d u) (1 - F (t)) + c^{2} (\int_{t}^{1} c f (u) d u) F (t) \\ < c^{3} 2 F (t) (1 - F (t)) \end{aligned}

$\begin{align} \tilde{V}_{F(t)} &= c^2\left(\int_0^t f(u)(c-f(u)) \, d u\right) (1-F(t)) + c^2\left(\int_t^1 f(u)(c-f(u)) \, d u \right) F(t)\\ &< c^2\left( \int_0^t cf(u) \, d u\right)(1 - F(t)) + c^2\left( \int_t^1 cf(u) \, d u\right)F(t)\\ &< c^3 2F(t)(1-F(t)) \end{align}$

\begin{aligned} \sqrt{n} ({\tilde{F}}_{n} (t) - F (t)) \overset{d}{\to} N (0, V_{F (t)}) \end{aligned}

$\begin{align} \sqrt{n}\left(\tilde{F}_n(t) - F(t)\right) \overset{d}{\to} N(0,V_{F(t)}) \end{align}$

如果您发现有问题，请发表评论。

编辑：

编辑1-

$V_{F(t)}$

编辑2-

$c^{-1}$ $c$ $\sum Y_i = 0$

— 用户名
source

{\tilde{F}}_{n} (t)

$\tilde F_n(t)$

\sum_{i} Y_{i} = 0

$\sum_i Y_i = 0$

{\tilde{F}}_{n} (t)

$\tilde F_n(t)$ ，因此如果您走这条路线，它将更加干净（并且更加正确）。

— 主教

sup_{C \subset [0, 1]} \int_{C} | \tilde{F} - F | \leq sup_{[0, 1]} | \tilde{F} - {\tilde{F}}^{⋆} | + \int_{0}^{1} | {\tilde{F}}^{⋆} - E {\tilde{F}}^{⋆} | + O (n^{- 1}) .

$\sup_{C\subset [0,1]} \int_C |\tilde F - F| \leq \sup_{[0,1]} |\tilde F - \tilde F^{\star}| + \int_0^1 |\tilde F^\star - \mathbb E \tilde F^\star| + O(n^{-1})\>.$

{\sum_{i} Y_{i} > 0}

$\{\sum_i Y_i > 0\}$

\leq | 1 - c n^{- 1} \sum_{i} Y_{i} |

$\leq |1 - c n^{-1}\sum_i Y_i|$

O_{p} (n^{- 1 / 2})

$\mathcal O_p(n^{-1/2})$

O_{p} (n^{- 1 / 2})

$\mathcal O_p(n^{-1/2})$

— 红衣主教

\sum_{i} Y_{i} = 0

$\sum_i Y_i = 0$

Y_{i}

$Y_i$

{\sum_{i} Y_{i} > 0}

$\{\sum_i Y_i > 0\}$

n = 2

$n=2$

2 \times 2

$2 \times 2$

sup_{C} \int_{C} | \tilde{F} - F | = \int_{0}^{1} | \tilde{F} - F |

$\sup_C \int_C |\tilde F - F| = \int_0^1 |\tilde F - F|$