我正在教入门统计课程,并正在审查采样类型,包括系统采样,即您对第k个个体或对象进行采样。
一个学生问对每个具有特定特征的人进行采样是否会完成相同的事情。
例如,对每个穿着蓝色T恤衫的人进行抽样是否足够随机并足以代表整个人口?至少,如果您要问的问题不是“您喜欢穿哪种颜色的T恤?” 我的感觉不是,但是我想知道这里是否有人对此有任何想法。
我正在教入门统计课程,并正在审查采样类型,包括系统采样,即您对第k个个体或对象进行采样。
一个学生问对每个具有特定特征的人进行采样是否会完成相同的事情。
例如,对每个穿着蓝色T恤衫的人进行抽样是否足够随机并足以代表整个人口?至少,如果您要问的问题不是“您喜欢穿哪种颜色的T恤?” 我的感觉不是,但是我想知道这里是否有人对此有任何想法。
Answers:
通常,对您的问题的回答是“否”。从人口(尤其是人类)中获取随机样本非常困难。通过限定特定的特征,就可以定义为您没有获得随机样本。这引入多少偏差是另一回事。
作为一个稍微荒谬的例子,即使您的人群是“足球迷”,您也不想在熊队和包装工队之间的足球比赛中采用这种方式。(即使您感兴趣的数量似乎与足球没有直接关系,轴承迷也可能具有与其他足球迷不同的特征。)
以这种方式获得样本有许多著名的隐藏偏差的例子。例如,在最近进行电话民意调查的美国选举中,据信样本中代表性不足(也许很大)的只有一部手机而没有固定电话的人。由于这些人通常比固定电话的人还年轻,因此获得了有偏见的样本。此外,年轻人与老年人口的政治信仰大相径庭。因此,这是一个简单的例子,即使样本并非故意以特定特征为条件,它仍然会以这种方式发生。而且,即使民意调查没有任何关系 无论使用哪种条件(即是否使用固定电话),从统计学上和实践上来说,条件对民意调查结论的影响都是显着的。
只要用于选择样本中单位的特征的分布与要估计的总体特征的分布正交,就可以通过对其进行条件选择来获得总体数量的无偏估计。样本严格来说不是随机样本。但是人们倾向于忽略随机样本是好的,因为用来选择样本单位的随机变量与总体特征的分布正交,而不是因为它是随机的。
只需考虑从具有P(invlogit(x_i))的伯努利随机抽取,其中[-inf,inf]中的x_i是单位i的特征,使得Cov(x,y)!= 0,y是人口特征,其表示您要估算。在您选择样本之前要进行随机化的意义上说,样本是“随机的”。但是,样本并未得出y的总体平均值的无偏估计。
您需要的是根据随机分配的变量对样本进行条件选择。即,与所关注数量所依赖的变量正交。随机化是好的,因为它可以确保正交性,而不是因为随机化本身。