估算集的大小时出错?


9

假设我们有一个集合A和一个子集B。如果我们知道| A |,那么我们可以计算| B |。通过找到从A中随机选择的元素均属于B的概率p,可以找到| A | p = | B |。

假设我们随机地均匀生成A的n个元素,并使用此数据估算p(B中元素的数量除以n),从而估算| B |。

这个估计有多可靠?即我们如何计算误差?

作为附带问题,此技术是否有名称?(这似乎是标记回收技术的数学版本)


1
这是二项式估计。(根本没有标记或重新捕获。这导致了超几何估计。)
笨蛋

Answers:


8

您正在估计比例。具体来说,假设A是选民的总数,B是为特定候选人投票的选民的集合。因此,p是将为该候选人投票的选民的百分比。让:

π 是投票给候选人的人的真实百分比

换一种说法:

π=|B||A|

那么您的每个样本都是具有概率的伯努利试验 π或等效地,您可以想象每个样本都是对潜在选民的一次民意测验,询问他们是否会投票支持该候选人。因此,π 是(谁)给的:

p=nBn

哪里

nB 是说他们将投票给候选人的人数,或者是您的规模样本中属于集合B的元素的数量 n

您估计的标准误差为:

π(1π)n

可以通过将MLE用于 π 即,通过:

p(1p)n

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.