为什么声称样品通常比人口普查更准确?


13

在学习采样过程时,我遇到以下两个陈述:

1)采样误差主要导致可变性,非采样误差导致偏差。

2)由于存在非抽样误差,因此抽样通常比人口普查更准确。

我不知道如何理解这两个陈述。获取这两个语句的基本逻辑是什么?


5
一次真正的人口普查还是一次尝试
主教

Answers:


16

如果作为人口普查的事实增加了非抽样误差的偏倚,则样本可能比(尝试的)普查更为准确。例如,如果人口普查引发不利的政治运动,提倡不回应(样本发生的可能性较小),则可能发生这种情况。除非发生这种情况,否则我无法理解为什么样本的非抽样误差比普查少。并且根据定义它将有更多的采样误差。因此,除了非常不寻常的情况之外,我想说人口普查比抽样更为准确。

考虑一个非抽样误差的常见来源-系统性的无响应,例如特定社会人口群体的响应。如果X组的人可能拒绝普查,他们拒绝样品的可能性也一样。即使使用后分层抽样来增加X组中您确实说服您回答问题的人的回答,您仍然会遇到问题,因为这些人可能是X的亲测者。除了要对仪器的设计和传送方法尽可能谨慎外,没有其他解决此问题的方法。

顺便说一句,这确实引起了人们对一个可能的问题的关注,该问题可能会使普查的准确性不及样本的准确性。样本通常具有对人口的后分层加权,这可以减轻诸如上段中所述问题的偏见问题。未能获得100%回报的普查尝试只是一个大样本,原则上应进行相同的处理;但是由于它被视为“普查”(而不是尝试普查),因此可以忽略。因此,该普查可能不如适当加权的样本准确。但是在这种情况下,问题出在分析处理技术(或省略)上,而不是试图进行普查的内在因素。

高效是另一回事-正如米歇尔(Michelle)所说,进行良好的抽样将比人口普查更有效,并且对于实际目的可能具有足够的准确性。


1
+1这反映了在理解问题以及激发问题的方式上进行了周到和有益的努力。
Whuber

我认为样本与不完整的人口普查之间的区别不仅仅是权衡样本响应的更高倾向。毕竟,权重数字必须来自某个地方-人口普查或更高质量的抽样。
乔纳森(Jonathan)

我真的会强调最小化样本中无响应偏差的能力。极少数人口普查能够有效地应对无回应的偏见,即使美国人口普查也遇到了困难。可能做得最好的唯一方法是员工满意度调查。在抽样调查中进行不答复后,成本效益更高。
乔纳森(Jonathan)2012年

在人口普查中,每次采访/ ...的质量控制可能(将是)昂贵的!通常,样本中的数据质量要比普查中的数据质量更好。
kjetil b halvorsen

5

我认为在实际情况下,样本可以更准确。例如,我们在一个发展中国家的城市里进行了一项研究,那里有很多人居住在未经登记的地方,并且人们不断走来走去,对回应不屑一顾。试图进行人口普查需要艰巨的努力,并且鉴于我们的资源,这将不得不在几个月来的过程中完成,因为那时人们会来去去去。通过一个样本,我们可以花费更多的时间来确保我们尽可能接近完全的响应-因为我们可以解释我们在做什么-并且我们可以在更短的时间内完成它,从而解决了问题人进出城市。

因此,我认为答案更多地取决于您正在做的事情的后勤以及非抽样误差的各种来源。

实际上,另一个消息来源是我们的调查很复杂,我们必须培训访问者,而在该国寻找足够的可培训访问者并为其提供资金将非常困难。


5

在对人员进行抽样调查时,样本经常同时遭受抽样误差(我们仅获得估计值)抽样误差(例如,人们出于实际考虑(例如成本)拒绝回答调查问卷,而不是根据需要对样本框架进行抽样,或者无法准确识别总体以抽取样本)。正确完成后,具有较高的响应率,比普查更有效。但是,假设没有样本包含非抽样误差是不正确的。


+1。Michelle,谢谢您的答复,欢迎来到我们的社区!
Whuber

1
嗨,嘘,很高兴来到这里。感谢您的欢迎。:)
米歇尔(Michelle)

1
@Michelle稍作纠正。抽样误差是由于未选择整个总体而导致的误差,即,由于使用样本来推断总体特征而导致的误差。非抽样误差为一切,包括非响应,未能创造足够的抽样框,测量误差等
布雷特

3

我认为它们的关键在于彼得·埃利斯(Peter Ellis)的回答:“尝试过”。当您正确地进行抽样时,您会漏出无响应的详细信息,找出阶层并寻找它们,等等。当您决定进行普查时,很容易忽略这些问题,因为您会得到“所有人”的认可。问题是,您可能并没有吸引到所有人,但您并未考虑实际上没有得到谁。

对于非常大的样本(占样本总数的一部分)也存在统计问题。我没有足够的知识来理解它们,但是至少您在方差计算方面遇到了问题。(像R一样的程序包可以survey在调查的较大子人群中补偿这种情况,而这正是我第一次了解这一点的地方。)

作为第二个问题,如果非样本错误包括由于流程中各个步骤的质量控制所引起的问题,那么拥有大量数据(普查)将使您难以获得具有相同水平的质量控制水平资源)上的数据量较小(样本)。

想象一下,如果您拥有美国人口普查局用于普查的资源(财务和人员),但是您只对1,000名随机的成年人进行了调查。我认为您将拥有更好的质量控制以及对所涉及问题和数据本身的更好分析。


2

我认为抽样可能比普查实际准确的原因(不是准确的)实际上归因于普查与样本的性质,并且可以归因于普查的原因,普查可能有更大的偏见(显然根据定义不抽样):在人口普查中,人口总数通常是未知的。因此,相比于已知大小的样本,最小化或控制无响应偏差要困难得多。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.