你能解释为什么当


12

我需要帮助解释并引用基本的统计文本,论文或其他参考文献,为什么使用在轮询中报告的误差幅度(MOE)统计信息通常天真地不正确地声明统计联系是不正确的。

一个示例:在轮询候选人A引线候选人B,%的,4.5 容限的误差为500名调查选民。39314.5%500

我朋友的原因是这样的:

由于统计建模的复杂性,误差范围意味着A的真实支持率可能低至34.5%,B的真实支持率可能高达35.5%。因此,A和B实际上处于统计死角。

在清楚阐明我朋友的推理缺陷方面,所有帮助都值得赞赏。我试图解释,如果,天真地拒绝假设“ A Leads B”是不正确的。 pApB<2MOE


有关此问题的进一步讨论(包括正确组合MOE的方法),请参阅stats.stackexchange.com/questions/18215

Answers:


7

我第一次尝试答案是有缺陷的(有问题的答案请参见下文)。有缺陷的原因是,报告的误差范围(MOE)适用于候选人的投票百分比,但不适用于百分比差异。我的第二次尝试明确地更好地解决了OP提出的问题。

第二次尝试

OP的朋友原因如下:

  1. 使用给定的MOE分别构造候选A和候选B的置信区间。
  2. 如果它们重叠,则我们有统计上的静听声音,如果没有,则A当前领先B。

这里的主要问题是第一步无效。独立为两个候选对象构造置信区间不是有效步骤,因为两个候选对象的轮询百分比是因变量。换句话说,决定不投票给A的选民可能会决定投票给B。因此,评估潜在顾客是否重要的​​正确方法是为差异构建置信区间。有关在某些假设下如何计算轮询百分比差异的标准误差,请参见Wiki 。

错误的答案如下

我认为,考虑投票结果的“正确”方法如下:

在对500名选民的调查中,我们看到铅差异高达8%的可能性大于5%。

然后,您是否相信“ A领先B”或“ A关联B”取决于您是否愿意接受5%作为截止标准。


@Srikvant。假设5%是可接受的显着性。我正在寻找一个更精确的答案,该答案揭示了“ A领先于B”是一种新的统计数据,即pA和pB的差,并且其对应的置信区间不仅仅是2 * MOE。

4

用标准偏差而不是置信区间来解释更容易。

pA+pB=1pB=1pA

Var(pApB)=Var(2pA1)=4Var(pA)
SD(pApB)=2SD(pA).
pApB
Var(pApB)=Var(pA)+Var(pB)2Cov(pA,pB).

pA+pB=1pApBSD(pApB)2SD(pA)

但是所有这些细微差别似乎都表明,投票机构应该报告差异的误差幅度。内特·银(Nate Silver)在哪里?


4

这不仅是一种不好的说法,而且还不是统计上的死胡同。

您不会以这种方式使用重叠的置信区间。如果您真的只想说候选人A会赢,那么候选人A绝对是领先者。铅为8%MOE 6.4%。该减法分数的置信区间不是单个分数的置信区间的两倍。声称每个估计值周围的CI重叠(±MOE)就是一个死热。假设N和方差相等,则差的MOE为sqrt(2)乘以4.5。那是因为找到两个值之间的差异只会使方差翻倍(SD平方)。置信区间基于方差的平方根,因此将它们组合为平均值(4.5)*平方根(2)。由于您的8%潜在客户的MOE约为6.4%,因此候选人A处于潜在客户中。

顺便说一句,MOE是非常保守的,基于50%的选择值。公式为sqrt(0.25 / n)*2。我们也可以使用一个公式来计算差异分数的标准误差。我们将使用发现的值而不是50%的临界值来应用,这仍然为我们提供了候选A(7.5%MOE)的领先优势。我认为,考虑到提问者的评论以及该截止值与所选的假设值的接近程度,这可能就是他们想要的。

对置信区间和功效的任何介绍都将在这里有所帮助。即使是关于教育部的维基百科文章也看起来不错。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.