置信区间和概率-此语句中的错误在哪里?


11

如果有人发表如下声明:

“总体而言,与不接触烟的非吸烟者相比,接触环境烟的非吸烟者患冠心病的相对风险为1.25(95%置信区间为1.17至1.32)。”

整个人口的相对风险是多少?有多少东西与冠心病有关?在可以测试的大量事物中,实际上很少与冠心病有关,因此,任意选择的任何特定事物与之相连的机会都将大大减少。因此,我们可以说该人群的相对风险为1。但是所引用的间隔不包含值1。因此,或者两者之间确实存在联系,而这两者的可能性正在逐渐减小,或者这是其中之一。不包含参数的间隔的5%。由于后者比前者更有可能是我们应该假设的。因此,适当的结论是,该数据集几乎可以肯定是该人群的非典型数据,

当然,如果有某种依据可以假定超过5%的疾病与冠心病有关,那么统计中可能会有一些证据支持环境烟雾就是其中之一的说法。常识表明这不太可能。

他们的推理有什么错误(因为所有卫生组织都同意,有大量有关二手烟破坏作用的文献)?是因为他们的前提是“在可以测试的大量事物中,实际上很少与冠心病有关”?这句话对于任何随机选择的因素(例如,一个人拥有几只患有冠状动脉疾病的狗)可能都是正确的,但二手烟和冠心病的先验概率要比“任何随机因素”高得多。

这是正确的推理吗?还是还有别的东西?


带引号的文字似乎...好吧,就像引号一样。这个从哪里来?:)
MånsT

哈哈是的,这是引自维基百科的引语...有人将此词添加到文章中以“置信区间”。我试图将其删除,因为那显然是不正确的,但是那个家伙拒绝了,所以我需要一个数学上合理的理由,而不仅仅是“这显然是错误的”。究竟是什么错误在这里。因为如果这是正确的,那么许多研究都可以基于类似的理由被驳斥
BYS2

3
如果有点拖累,我将继续尝试并提供帮助。他的论点显然是谬误的,强烈指出他有一个议程。
艾瑞克(Erik)2012年

3
作为一个使用大量统计数据但又不是统计学家的物理学家,我发现该段落确实无济于事,不要在意这听起来很不对劲。我一直以为可能会错误地认为95%的cl表示如果原假设是正确的,那么如果我重复我的实验,那么20内就有1次会得到95%水平的显着结果(我认为这是一个很好的理由不能使用低于99.9的标准,但这是另一个讨论)。该帖子似乎更多地是关于相关因素的,实际上根本没有帮助非专家(或任何人)。
Bowler

@Erik。该用户在袜子木偶方面拥有相当狡猾的历史(拥有一些帐户并使用IP编辑),并且在此之前被屏蔽了……不确定他的交易是什么。但似乎确实是个麻烦制造者
BYS2

Answers:


10

这里有很多错误。正如@Néstor解释的那样,他隐式假设(无链接)和(链接)的先验概率。1H0H1

他在上放置了非常高的重量(非常接近1),在上放置了非常小的重量。这是他做的第一个可疑的事情,因为吸烟与心脏病(考虑吸烟者)之间存在机械联系,所以问题的实质是暴露是否足够。这甚至不考虑以前所做的研究。因此,这实际上不是像穿红色袜子那样要进行“大量测试”的一项。这意味着他已经从一个高度偏见且没有任何正当理由的开始。1H0H1

然后,他通过声明获得不包含真实值的95%置信区间的概率为5%来更新其先验值。尽管这是事实,但在零假设的假设下,这并不是获得特定间隔的机会。注意,他将置信区间[1.17,1.32]与置信区间[100,200]完全相同,这显然是有问题的。

这对于贝叶斯方法确实很重要:在假设1为零的情况下,如果总概率为5%,则没有得到包含1的区间,但获得该特定区间的概率密度是不同的(并且较小)。

第三个错误是,他从没有指定自己的先验,也没有说过要使结果与的可能性。它只是“消失得很小”。1H0H1

第四个错误是说要采取的适当措施是消除数据。请注意,他的结果甚至不依赖于数据,他的论据暗示对所有数据完全将执行相同的操作。如果您发现了一个有趣的链接,但怀疑它只是a幸,则正确的科学方法是尝试复制您的结果!


感谢您扩展Nestor的答案!不过,一个简单的问题是,您说“ ...在原假设的假设下,这不是获得特定间隔的机会。” 如果我们想在零假设的假设下找到获得特定间隔的机会,我们将需要使用贝叶斯推断和可信区间正确吗?频繁的置信区间仅告诉您“该区间包含真实值的机会”。再次感谢
BYS2

构造95%的常识置信区间,以使构造的区间的至少95%的时间包含真实值。到目前为止,一切都很好。话虽如此,如果原假设为真,您还可以计算获得特定置信区间的概率(或密度值)。确切的位置包含更多的“信息”,而不仅仅是它是否包含零假设。使用贝叶斯推理时,丢弃该信息是不好的,因为它与null为真的概率有关。
艾瑞克(Erik)2012年

一个玩具的例子是:贝叶斯推理,您想对分布的形式进行推理。先验允许两种可能性:H1:分布为标准正态。H2:分布正态,均值= sd =1。分布值的样本使您可以更新以前的分布。当只给出值的迹象时,您也可以更新以前的值,但是由于您丢弃了相关信息,因此更新的信息量较小。
埃里克(Erik)2012年

6

这是一个与假设检验相关的非常有趣的哲学问题(因此,在常识性背景下,置信区间也是如此,正如我在此处解释的)。

当然,有许多可以进行研究的假设-被动吸烟会导致冠心病,饮酒会导致冠心病,拥有狗会导致冠心病,作为摩Cap座的人会导致冠心病...

如果我们随机选择所有这些假设之一,那么我们选择恰好为真的假设的可能性实际上为零。这似乎是引文中的论点-我们不太可能检验一个真实的假设。

但是这个假设并不是随机选择的。它是由先前关于冠心病的流行病学和医学知识激发的。有理论上的机制可以解释吸烟如何引起冠心病,因此认为这些机制同样适用于被动吸烟似乎并不为过。

引用中的批评可能对探索性研究有效,在挖掘性研究中,挖掘数据集作为假设。这就是为什么我们不接受这种“发现”作为事实的原因-相反,我们要求可以在新研究中复制结果。无论哪种方式,引文中引用的论文都是荟萃研究,因此不受此问题的影响。

在过去的几个世纪中,我们从经验上看到,通过将预测结果与观察到的结果进行比较检验理论驱动的假设是可行的。我们相信这一程序的事实是我们在医学,工程学和科学领域取得如此巨大进步的原因。这是我可以在计算机上编写此代码并在自己的计算机上阅读它的原因。认为该程序是错误的,就是认为科学方法从根本上来说是有缺陷的-并且我们有大量的证据表明事实并非如此。

我怀疑一个人不愿意接受这种证据实际上会接受...


我真的没有在最后一句之前得到你的段落。您是在指“显着性检验”(例如,至少计算极端数据的概率)还是在“假设检验”(贝叶斯设置)?谁说如果您问正确的问题,他们中的任何一个都不起作用?
内斯托尔·

@Néstor:我也许应该用不同的方式写。我并没有真正发表关于统计假设检验的陈述,而是观察了一个事实,即将模型预测与实际数据进行比较(即如果假设正确,则进行“检验”)似乎是一种非常有效的方法。科学。我认为,对CI的批评的核心是不愿意接受这种方法。引用中给出的论点类型适用于任何统计方法-所有零假设的先验概率为零,我们永远不会相信任何东西。
MånsT

6

我真的不明白为什么作者说,仅基于置信区间进行分析,冠心病相对危险度为1的可能性可能会大大降低。这是完全错误的。对我来说,似乎他使用的是常去设置,但是他在进行贝叶斯推理(这很常见)。

与CI关联的唯一东西是经典意义测试,但众所周知,如果 { 二手烟与冠心病之间没有联系 },它们会给您(其中表示“数据至少与我们观察到的数据一样极端”),而不是(其中是数据),这是他所声称的,并且与您指出的内容完全相关;您必须结合有关该特定链接的先验知识!这来自以下事实: 通过贝叶斯定理,其中是先验概率。p D e | H 0D e p H 0 | D D p H 0 | D p D | H 0p H 0p H 0H 0H0:p(De|H0)Dep(H0|D)D

p(H0|D)p(D|H0)p(H0),
p(H0)H0

H0不会是:被动吸烟和冠心病之间没有联系吗?由于原假设通常是没有效果的假设。除此之外,感谢您的回答!
BYS2

是的,你是对的!直到您指出:-),我才注意到它。我将编辑答案。
内斯托尔·

3

尽管贝叶斯推理中有一些东西(由埃里克(Erik!)进行了彻底的解构!),的确可以解释为什么不能复制许多医学发现的事实,但这一特殊论点却像大锤一样适用。

作者以两件事为前提,但没有提供证据:吸烟是随机选择的,世界上几乎没有任何东西会导致心脏病。在这些宽松的推理标准下,作者可以拒绝任何会导致心脏病的结论。您需要做的就是声明:

  1. 该假设是随机选择的,并且
  2. 该心脏病的成因非常接近于零。

这两种说法都是有争议的(根据我的常识,很可能是错误的)。但是,有了这些假设,即使观察到100%暴露于二手烟的人在一年内死于心脏病发作,您也可以断言这种联系与隐藏的,单一的“真实”原因只是巧合。 。


好,谢谢您的想法!是的,作者明确地假设该假设是“随机选择的”,这是不正确的。
BYS2

-1

我没有发现引号中的段落明显有问题,但是我没有看到数据,也无法检查数字。但是,其后的两个段落非常不清楚。

假设他说过:“总体上,病态肥胖的非吸烟者与体重正常的非吸烟者相比,患冠心病的相对风险为1.25(95%置信区间为1.17至1.32)。” 有人有理由怀疑他吗?


引号的第一段只是作者引用了流行病学研究的结论,所以这没有错。.接下来的几段是他试图抹黑该研究的内容,这是他发表一些可疑陈述的地方。
BYS2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.