您如何抽样人口有关系吗?


9

我有一个混合桶,里面装有无限量的大理石。大桶中有无数的大理石,但它们仅以一些未知但数量有限的品种出现: 是未知的,对于,绘制型大理石比绘制型大理石更有可能。

V={v1,v2,v3,...,vk}
kijvivj

在一个实验中,一台机器使用某种未知程序对桶进行采样。该机器从其样本中报告一组描述了种大理石: Xqk

XV;|X|=q

重复该实验的试验(各个试验中的是固定的),我们得到,的子集序列。qV(X1,X2,)

我们知道的唯一其他事情是:

  • 审判是独立且相同的
  • 机器报告样品中前最常见的品种q

我们确切地不知道机器如何采样大理石。它可以选择大量弹珠,然后报告最频繁的。或者,它可以继续拾取大理石,直到有品种为止。它也可以做其他事情。qq

我们的试验会受到机器采样程序的影响?X1个X2


3
+1这是一个很好的问题,因为它意识到随机抽样的意义不仅仅在于某种模糊形式的任意性或对抽样程序缺乏了解。
ub

采样规则当然很重要。否则,请考虑以下步骤:机器在每次试验时始终选择类型1(第一个类型)的单个大理石。每个抽签将是独立的,并且具有相同的分布(平凡),并且您将得到q = 1,这是完全无用的结果。
AlaskaRon 2015年

Answers:


9

验证该方法重要的一种简单方法是为大理石类型选择特定的概率,然后根据某些方法计算每个子集的几率。但是,这不能证明该方法没有关系。

假设有 3 类型和每种类型的机会是 1个/21个/41个/4, 分别。假设您正在选择2 大理石的类型。

假设选择了大理石之后,您将忽略其余的大理石。你得到的机会{v2v3}21个/41个/3=1个/6

假设您拒绝具有重复类型的对。的机会{v2v3}

21个/41个/421个/41个/4+21个/21个/4+21个/21个/4=1个/81个/8+1个/4+1个/4=1个/5,

由于这些不同,因此机器使用的方法很重要。拒绝具有重复类型的对时,倾向于减轻对具有常见类型的对的加权。

您提到的两种方法是等效的。在选择大理石后,忽略其余的与在拾取之前相同。q 不同种类。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.