置信区间与样本量?


9

我是统计和置信区间领域的新手。因此,这可能非常琐碎,甚至听起来很愚蠢。如果您能帮助我理解或指出一些可以更好地说明这一点的文献/文字/博客,我将不胜感激。

我在美国有线电视新闻网(CNN),福克斯新闻(Fox news),政治新闻(Poliitico)等各种新闻网站上看到了有关2012年美国总统大选的民意调查。每个机构都进行一些民意调查,并以以下形式报告一些统计数据:

CNN:奥巴马的人气为X%,误差幅度为+/- x1%。样本数量600。FOX:奥巴马的受欢迎程度为Y%,误差幅度为+/- y1%。样本数量800。XYZ:Obama的受欢迎程度为Z%,误差范围为+/- z1%。样本数量300。

这是我的疑问:

  1. 我该如何决定信任哪一个?应该基于置信区间,还是应该假设由于Fox样本量较大,因此估计更为可靠吗?置信度迭代次数和样本数量之间是否存在隐式关系,以至于指定一个样本就不必指定另一个样本了?

  2. 我可以确定置信区间的标准偏差吗?如果是这样,它始终有效还是仅对某些分布有效(如高斯分布)?

  3. 有什么方法可以“合并”或“合并”以上三个估计,并获得我自己的估计以及置信区间?在这种情况下,我应主张多少样本数量?

我提到CNN / Fox只是为了更好地说明我的示例。我无意在这里开始民主党与共和党的辩论。

请帮助我理解我提出的问题。

Answers:


4

除了彼得的出色答案,以下是一些针对您特定问题的答案:

  1. 值得信任的人还取决于谁在进行民意测验以及他们为获得高质量民意测验所做的努力。如果样本不具有代表性,则进行较大的投票不会使样本规模更大,但仅在一种非摇摆状态下不会产生很好的结果。

    样本大小与置信区间的宽度之间存在关系,但是其他因素也会影响宽度,例如百分比接近0、1或0.5的程度。使用了哪些偏差调整,如何采集样品(成簇,分层等)。一般规则是,置信区间的宽度将与1个ñ,因此,将间隔减半需要采样量的4倍。

  2. 如果您足够了解样本的收集方式以及使用什么公式计算间隔,则可以求解标准差(您还需要知道所使用的置信度,通常为0.05)。但是,分层样本和聚类样本的公式不同。同样,大多数民意调查都关注百分比,因此将使用二项分布。

  3. 有多种方法可以合并信息,但是您通常需要了解有关如何收集样本的知识,或者愿意对间隔的构造方式做出某种形式的假设。贝叶斯方法是一种方法。


1
+1。但是,#3的前景真的那么暗淡或困难吗?如果我有一组独立的估计,每个估计都有自己的误差范围,为什么我不能(至少粗略地)以通常的方式将它们组合(作为加权均值,由教育部的平方反比进行加权),并将它们的标准误差合并为好(使用方差公式)?这不是完美的,但它应该比选择一个值得信赖的民意测验更好,对吗?
Whuber

谢谢格雷格!非常感谢您的回答。您在对问题3的答复中提到“贝叶斯方法是一种方法”。您能否指出一些文献,以提供更多有关此方面的信息?
Nik

@whuber:感谢您的评论。那就是我一直在想的。您认为以这种方式合并这些估计值是合理的吗?可能不完全,但是在很大程度上?
Nik

1
@whuber,我并不是要把它描述为暗淡的,只是为了确保张贴者知道并可以符合所需的假设。
格雷格·斯诺

@Nik,网络上有许多关于贝叶斯统计的教程。一种简单的方法(假设样本都是简单的随机样本,或者调查设计使得SRS假设相距不远)将先于beta开始,然后使用具有二项式可能性的每次调查来更新并获取新的后验。关于贝叶斯方法的一件好事是,如果您不希望它们具有与最新民意测验一样大的影响力,则可以不考虑先前研究的影响。
格雷格·斯诺

4

这是一个巨大的话题,但是基本上有两个问题:

1)精度-这取决于样本量。较大的样本可提供更精确的估计值,并具有较低的标准误差和较小的置信区间

2)偏见-在统计上,偏见不一定具有它在其他地方所具有的负面含义。在民意调查中,他们尝试获取XXXX的随机样本(有时可能是选民,有时是注册选民)。但是,他们没有。有些民意测验仅使用固定电话。不同的人群或多或少地回答。不同的群体或多或少会挂断电话。

因此,所有民意测验者都会权衡其回应。也就是说,他们试图调整结果以匹配有关选民的已知事实。但是他们的做法有所不同。因此,即使使用相同的轮询输入数据,它们也会给出不同的数字。

谁信任?好吧,如果您看一下内特·西尔弗(Nate Silver)在538上的工作,他会对以前选举中民意测验的准确性进行了评级。但这并不意味着它们现在将同样准确。


谢谢彼得。因此,具有较低误差范围的估计更加“精确”。有没有办法仅从X%+/- x1%的误差幅度中也知道它有多偏差?我想这是不可能的,除非您知道各个样本的偏好,对吗?
Nik

恩,那就对了。当然,某些民意测验者(在一个方向或另一个方向)具有已知的偏差。内部民意调查(由一方或另一方进行)通常会产生偏差。他们做到这一点的一种方法是对数次民意测验进行严格管理,然后只发布有利的民意测验。然后是整个“民意测验”,其中关于候选人的问题以关于他或她的负面问题为开头。
彼得·富勒姆

1

这属于调查抽样范围。原则上,这些方法有效,因为使用了随机化。根据主观决定,以下是一些可能在民意测验中有所不同的事情。

  1. 采样框。我应该从哪一组选民中抽取样本?

  2. 我如何处理尚未决定的选民的动荡,他们可能会根据昨天的民意测验或下周的调查改变对奥巴马与罗姆尼的看法?

  3. 彼得感动了偏见。1936年的文学摘要调查是一场灾难。它选择FDR的共和党候选人,因为抽样框是基于电话号码的随机选择。1936年,只有中上层阶级和富人拥有电话。该团体由倾向于投票支持共和党候选人的共和党人主导。罗斯福以压倒性优势获胜,他们从穷人和中产阶级那里获得了选票,而这些人往往是一群民主党人!这说明了由于采样帧选择不佳而造成的偏差。

  4. 调查抽样处理有限的人口。总体大小为N。假设从该总体中抽取了一个简单的随机样本,其大小为n。为简单起见,假设只有奥巴马和罗姆尼在竞选。奥巴马将在此抽样框架中获得的选票比例是二元变量的平均值(例如,如果受访者选择奥巴马,则为1,而罗姆尼为0)。该变量的样本均值方差为[p(1-p)/ n] [Nn] / N,其中p是选择奥巴马的真实人口比例。[Nn] / N是有限人口校正。在大多数民意测验中,N比N大得多,正确的值可以忽略。查看p(1-p)/ n,我们看到方差随着n减小。因此,如果n大,则给定置信度下的置信区间将变小。

美国人口普查局的Pollsters其他调查抽样人员和统计人员都可以使用这些统计工具,并且他们可以使用更复杂和准确的方法(群集随机抽样和分层随机抽样提到了两种方法)。

当它们的建模假设有效时,这些方法可以很好地工作。出口投票就是一个典型的例子。在选举日,您会看到网络几乎在几乎每个州都遥遥领先之前,几乎在每个州都能准确预测赢家。那是因为选举日的可变性消失了。他们从历史上就知道人们倾向于投票的方式,并且可以通过避免偏见来确定选定的区域。网络有时有所不同。这可能是由于竞争优先于其他人选拔优胜者。在极少数情况下,也可能是因为投票非常接近(例如,佛罗里达州的2000年总统选举)。

我希望这可以使您对发生的事情有更清晰的了解。我们再也不会看到诸如1948年的“杜威击败杜鲁门”或1936年的《文学文摘》惨案之类的重大错误。但是,统计数字并不完美,统计学家永远不能说他们是肯定的。


感谢您的详细解释。这真的有帮助!
Nik

我们不再看到重大错误?克林顿在2016年赢了,对吗?我带你知道的未知数,给你养一只黑天鹅。就像我父亲曾经说过的,“这就是你不知道的原因,这杀死了你。”
卡尔

1
我的回答与克林顿和2016年大选无关,后者有许多奇怪的问题。(1)俄罗斯的干预,(2)克林顿赢得了全民投票,并且(3)一些特朗普选民不愿承认他们将投票支持特朗普。也许我应该补充一点,即当选民投票率与预期不符时,民意调查可能是错误的。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.