偏向引导程序：是否可以将CI置于观察到的统计数据的中心？

我有一些数据可以代表人群中基因型的数量。我想使用Shannon指数来估算遗传多样性，并且还要使用自举法生成一个置信区间。但是，我已经注意到，通过自举进行的估算往往会产生极大的偏差，并导致置信区间超出我观察到的统计数据。

下面是一个例子。

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

资料产生

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

计算方式

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

通过偏差校正生成CI

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

假设t的方差可用于t0的方差。

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

报告以t0为中心的CI是否正确？有没有更好的方法来生成引导程序？

— ZNK
source

Answers:

在由给定的OP的感兴趣的参数的设置是香农熵这是概率向量的函数。基于所述估计样品（在仿真）是插件估计

θ （ p ） = - \sum_{一世 = 1个}^{50} p_{一世} 日志 p_{一世} ，

$\theta(\mathbf{p}) = - \sum_{i = 1}^{50} p_i \log p_i,$

p \in R^{50}

$\mathbf{p} \in \mathbb{R}^{50}$

n

$n$

n = 100

$n = 100$

使用香农熵为

的均匀分布生成样本

由于香农熵在均匀分布中最大化，因此插件估算器必须向下偏置。仿真表明，

，而

{\hat{θ}}_{ñ} = θ （ {\hat{p}}_{ñ} ） = - \sum_{一世 = 1个}^{50} {\hat{p}}_{ñ ， 一世} 日志 {\hat{p}}_{ñ ， 一世} 。

$\hat{\theta}_n = \theta(\hat{\mathbf{p}}_n) = - \sum_{i=1}^{50} \hat{p}_{n,i} \log \hat{p}_{n,i}.$

\log (50) = 3.912.

$\log(50) = 3.912.$

b i a s ({\hat{θ}}_{100}) ≃ - 0.28

$\mathrm{bias}(\hat{\theta}_{100}) \simeq -0.28$

。插件估计量是一致的，但是

方法不适用于

为均匀分布，因为Shannon熵的导数为0。因此，对于

此特定选择，基于渐近参数的置信区间不明显。

b i a s ({\hat{θ}}_{500}) ≃ - 0.05

$\mathrm{bias}(\hat{\theta}_{500}) \simeq -0.05$

Δ

$\Delta$

p

$\mathbf{p}$

p

$\mathbf{p}$

百分间隔基于分布其中是从采样得到的估计从观测 $\theta(\mathbf{p}_n^*)$ $\mathbf{p}_n^*$ $n$ $\hat{\mathbf{p}}_n$ 。具体而言，是从的分布的2.5％到97.5％的间隔。作为OP的自举模拟显示，显然也向下偏压作为一个估计 $\theta(\mathbf{p}_n^*)$ $\theta(\mathbf{p}_n^*)$ $\theta(\hat{\mathbf{p}}_n)$ ，这导致百分位数间隔完全错误。

对于基本（和正常）间隔，分位数的角色互换。这意味着该间隔确实看起来是合理的（覆盖3.912），尽管间隔超过3.912在逻辑上没有意义。此外，我不知道基本间隔是否具有正确的覆盖范围。其依据是以下近似的分布身份：

θ （ p_{ñ}^{*} ） - θ （ {\hat{p}}_{ñ} ） \overset{d}{≃} θ （ {\hat{p}}_{ñ} ） - θ （ p ） ，

$\theta(\mathbf{p}_n^*) - \theta(\hat{\mathbf{p}}_n) \overset{\mathcal{D}}{\simeq} \theta(\hat{\mathbf{p}}_n) - \theta(\mathbf{p}),$

n

$n$

n = 100

$n = 100$

$\theta(\hat{\mathbf{p}}_n) \pm 1.96\hat{\mathrm{se}}_n$

$\theta(\mathbf{p})$ $\mathbf{p}$ $\theta(\mathbf{p})$

— NRH
source

1 / n

$1/n$

@EdM这是非常有用的信息。我不了解有关此特定偏差问题的文献。如果您可以将注释变成解释偏倚校正的答案，以及如何将其与自举结合使用（例如，以获得置信区间），则可能非常有用。

— NRH 2015年

在这个问题和您的答案出现之前，我也不了解这些文献。这有点令人尴尬，因为香农熵在我的生物医学领域经常被用作一种度量。我将看到可以合并的其他答案。

— EdM 2015年

θ (p_{n}^{*})

$\theta(\mathbf{p}_n^*)$

n

$n$

n

$n$

n \to \infty

$n \to \infty$

正如@NRH指出的那样，问题不在于自举产生了偏差。只是基于样本数据的香农熵的简单“即插即用”估计值就偏离了真实总体值。

1950年代，在定义此索引的几年之内就认识到了这个问题。本文讨论了潜在问题，并参考了相关文献。

问题来自于各个概率与该熵测度之间的非线性关系。在这种情况下，基因观察到的基因型分数我在样品Ñ $\hat{p}_{n,i}$ $p_{n,i}$

{\hat{θ}}_{ñ} = θ （ {\hat{p}}_{ñ} ） = - \sum_{一世 = 1个}^{中号} {\hat{p}}_{ñ ， 一世} 日志 {\hat{p}}_{ñ ， 一世} 。

$\hat{\theta}_n = \theta(\hat{\mathbf{p}}_n) = - \sum_{i=1}^{M} \hat{p}_{n,i} \log \hat{p}_{n,i}.$

非线性关系意味着结果值是真实遗传多样性的偏低估计。

偏倚取决于基因的数量， $M$ $N$ $(M -1)/2N$

R中有处理此问题的软件包。的simboot特别包装具有这样的功能estShannonf，使得这些偏置校正，和一个功能sbdiv，用于计算置信区间。最好使用这种已建立的开源工具进行分析，而不是尝试从头开始。

— 教育部
source

那么由于样本量的原因，估计量本身就是错误的吗？该simboot程序包看起来很有希望，但似乎不适合我的目的，因为它需要一个控制样本来估计置信区间。

— ZNK 2015年

“错误”并不完全正确；估计值是“有偏见的”，因为其期望值与实际人口值不同。这并不意味着它是“错误的”。偏置估计量可能很有用，如选择估计量时的偏差方差折衷所说明。如果simboot不能满足您的需求，谷歌“香农熵的偏置R”，链接到其它的R程序包一样entropy，entropart和EntropyEstimation。

— EdM 2015年

人口中存在的某些基因型可能在任何特定样本中都被遗漏，这一事实引起了其他问题。一些基于人口和生态的R软件包似乎具有解决此问题的方法。

— EdM 2015年