来自相同种群的多次采样的交集概率


10

这是一个示例情况:

  • 我的人口为10,000。每个项目都有一个唯一的ID。
  • 我随机挑选100件物品并记录ID
  • 我把100件物品放回了人口中
  • 我再次随机选择100个项目,记下ID并替换。
  • 总共我重复了5次随机抽样

概率是多少 X 5个随机抽样中出现多少个项目?

我不是很精通统计。这是正确的吗X=10

  • 对于每个采样,从10,000起的100个项目的可能组合数为 b一世ñØ10000100
  • 在100种商品的所有可能组合中, b一世ñØ999090b一世ñØ10010 组合包含10个特定项目
  • 包含10个特定项目的概率为 b一世ñØ999090b一世ñØ10010/b一世ñØ10000100
  • 以5的幂计算的概率代表5个独立采样。

因此,从本质上讲,我们只是计算5个独立的超几何概率,然后将它们相乘?我觉得我在某处缺少一步。


3
如果重复一次,则表示您总共重复两次。重复5次不意味着您重复6次吗?
Glen_b-恢复莫妮卡

Answers:


3

递归计算机会。

psX 恰好是 X 价值观 0Xķ,全部选中 s1个 独立抽签 ķ 来自以下人群的商品(无替换商品) ñķ>0成员。(让我们ñķ 在分析期间固定不变,因此无需明确提及。)

psXÿ 如果完全是 ÿ 在第一个中选择值 s-1个 然后画 Xÿ他们中的最后一次抽奖被选中。然后,因为有的子集的那些元件元件和剩余的子集元件分开的其他的选自群体成员,ÿXXÿñ-ÿķ-Xķ-Xñ-ÿ

psXÿ=ÿXñ-ÿķ-Xñķ

总概率定律

psX=ÿ=XķpsXÿps-1个ÿ

对于,可以确定:这是初始分布。s=1个X=ķ

通过次重复获得完整分布所需的总计算量为。这不仅相当快,算法也很容易。等待粗心的程序员的一个陷阱是,这些概率可能变得非常小,并且下溢浮点计算。以下实现通过计算数组的列中的值来避免这种情况。sØķ2sR日志psX1个2s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

通过让和来获得问题的答案。s=5 ñ=10000=104ķ=100=102 输出是数组,但是大多数数字是如此之小,我们可能会关注非常小的。这是与对应的前四行:101×5XX=01个23

p(5, 1e4, 1e2)[1:4, ]

输出是

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

值标记行,而值标记列。第5列显示在所有五个样本中出现一个元素的可能性很小(大约百万分之一),并且基本上没有机会在所有五个样本中出现两个或多个元素。Xs

如果您想看看这些机会有多小,请查看它们的对数。以10为基数很方便,我们不需要很多数字:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

输出告诉我们小数点后有多少个零:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

第一行中的数字是值。例如,通过计算发现在所有五个样本中恰好出现三个值的机会为,实际上,该点之前有零。第一个有效数字。作为检验,最后的值是一个圆形的版本。(计算第一个样本在接下来的四个样本中再次出现的机会)等于Xexp(u[4])0.000000000000000000143441918岁967.0967.2610000100-410-967.26


0

我只是遇到了一个类似的问题,即使我也不知道这是否是正确的解决方案,还是这样处理的:

您有兴趣在5个样本中出现项目,总共项目中有个。您可能会想到带有白球和黑球的骨灰盒。取出球,是您的集合中所有白色球的概率。如果您(独立地)执行次,则将其乘以:。X10010,000X10,000X100phX5p=ph5

我什至可以再想一步,将其围绕二项式分布:如果您有一个硬币出现,概率为(您有所有物品的概率),并且扔了次,那获得个头的可能性?。ph55p=(55)ph5(1ph)55=ph5


0

数量的项目出现在所有5个随机抽样中的概率是多少?X

根据汉斯所说的,您希望始终在其余10000-的100和100- ID的每个样本中获得相同的 ID 。这样对于一个给定的样品的概率通过用于超几何函数给出成功在100平局从10000有人口可能成功的状态:。对于5个样本,您将采用。XXXXXP=XX10000-X100-X10000100P5

但是,我们假设知道共享的 ID,并且有方式来选择这些 ID。因此,您的最终答案将是。X10000XX10000XP5


什么是“ ”?除非您揭示了答案,否则不可能理解它,更不用说检查它了!X
ub

我不记得,就像3年前一样,但大概和问题中的X一样吗?
浩烨

好。但是,什么证明您的公式正确呢?简单检查(例如的情况)(您的公式告诉我们该概率为,从而完全排除了其他可能性!),这表明它是错误的。X=01个
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.