当许多重要的事情都是一次性的事情时,为什么统计有用?


18

我不知道是否只有我一个人,但我对总体统计数据非常怀疑。我可以在骰子游戏,扑克游戏等中理解它。非常小,简单,主要是独立的重复游戏就可以了。例如,落在其边缘的硬币足够小,可以接受正面或反面着陆的概率约为50%。

玩$ 10的扑克游戏,争取95%的胜利。但是,如果您一生的积蓄和更多金额取决于您是否赢得胜利?知道您在那种情况下有95%的时间会获胜将如何对我有所帮助?期望值并没有太大帮助。

其他例子包括危及生命的手术。根据现有数据,如何知道生存率为51%与99%的生存率有什么关系?在这两种情况下,我认为医生告诉我的内容对我来说都没有关系,我会坚持下去。如果实际数据是75%,他还可以告诉我(除非遵守道德和法律),否则生存的机率是99.99999%,所以我会感觉更好。换句话说,除了二项式之外,现有数据无关紧要。即使那样,如果我最终死了,生存率也不会有99.99999%的问题。

还有,地震的可能性。平均每隔x(x> 100)年发生一次强地震无关紧要。我不知道地震是否会在我的一生中发生。那么,为什么它甚至是有用的信息呢?

举一个不那么严重的例子,例如,我所去过的地方中,我爱过的地方中有100%位于美洲,对我去过欧洲的地方中的100%无动于衷,而对我所去过的地方中的100%却讨厌去过亚洲。现在,这绝不意味着我不会在下一次旅行中在亚洲找到自己喜欢的地方,也不会在欧洲讨厌或对美国无动于衷,只是因为统计数据无法捕获我所有的信息,即使我去过所有大陆的x%以上,我也可能永远无法捕捉到我需要的所有信息。只是因为在我尚未去过的那些大陆的1-x%中存在未知数。(请随意用其他百分比替换100%)。

我知道没有办法暴力破解所有内容,并且在许多情况下您都必须依靠统计信息,但是我们如何才能相信统计信息在我们的一发不可收拾的情况下会有所帮助,尤其是当统计信息基本上不推断为异常事件时?

有什么见解可以克服我对统计的怀疑吗?


5
(+1)欢迎来到我们的网站!不只是您:这是一个深层的问题,涉及到统计学的基础。
ub

3
“挽救生命”的示例混合了不同的问题。在经济学中,合理的风险规避的通用模型是最大化预期效用,而不是预期货币,在这种情况下,效用通常是像log(money)之类的凹函数(亚线性)。这意味着损失的成本要比相同大小的收益高,并且对于较大的变化,这种影响更大。这与不相信99 之间存在任何差异(这会导致不一致和不合理的行为)有很大的不同。50%99%
道格拉斯·扎里

@DouglasZare这听起来像是一个非常有趣的领域。您能否提供有关活期储蓄的个人风险规避主题的介绍性文章?
steffen 2012年

@steffen:许多基础经济学文章都涵盖了该材料。许多人认为期望效用最大化的理论太简单了,不足以解释许多现象,但这是在继续展望诸如前景理论之类之前理解的重要起点。用期望效用最大化而不是期望货币最大化容易解释的某些情况不应被视为概率论的失败。en.wikipedia.org/wiki/Expected_utility_hypothesis
Douglas Zare 2012年

这使我感到很重要,因为它可能会持续公开讨论。(不过,我想知道人们是否想使其成为CW。)
gung-恢复Monica

Answers:


25

首先,我认为您可能会混淆“统计”,这是指描述一组或某个情况的数字或其他事实的集合,而“统计”是指在面对变化时使用数据和信息来理解世界的科学(其他可能是能够改善我的定义)。统计人员会同时使用两种词义,因此人们将它们混为一谈也就不足为奇了。

统计学(科学)与选择策略和选择最佳策略有关,即使我们只应用一次。有时,当我(和其他人)教授概率时,我们使用经典的蒙蒂·霍尔问题(3门,2只山羊,1辆汽车)来激发它,并且我们展示了如何通过多次玩游戏来估计概率(不是为了奖品) ),我们可以看到“切换”策略赢了2/3的时间,而“停留”策略只赢了1/3的时间。现在,如果我们有机会一次玩游戏,我们将了解有关哪种策略可以更好地获胜的一些知识。

外科手术的例子与此类似,您只会进行一次外科手术(或没有进行过外科手术),但是您是否不想知道哪种策略可以使更多人受益?如果您选择的手术几率大于0%,或者不进行手术,而在0%的情况下进行手术,那么是的,在具有51%生存率和99.9%生存率的手术之间差异不大。但是,如果还有其他选择,您可以选择在手术,不做任何事情(存活率达到25%)或改变饮食和进行锻炼而存活率达到75%(但需要您付出努力)之间进行选择,这不会您是否关心手术选择是否具有51%对99%的生存率?

另外考虑一下医生,他将做的不仅仅是您的手术。如果手术的存活率为99.9%,那么他没有理由考虑替代方案,但是,如果手术的存活率仅为51%,那么尽管这可能是当今的最佳选择,那么他应该寻找其他能够提高存活率的替代方案。是的,即使存活率达到90%,他也会失去部分患者,但是哪种策略可以最大程度地挽救大多数患者呢?

今天早上,我开车时系安全带(我通常的策略),但是没有发生任何事故,所以我的策略是在浪费时间吗?如果我知道什么时候会发生事故,那么我可以只在这种情况下系好安全带,而在其他场合则不系安全带,从而节省时间。但是我不知道什么时候会发生事故,所以我会坚持佩戴安全带策略,因为我相信这将给我最好的机会,即使我发生事故,即使这意味着浪费一点时间并在没有事故的高比例(希望是100%)中付出努力。


+1格雷格好帖子!我和你在同一时间写我的。我们可能会有一点重叠,但我认为我们都有话要说,这是正确的,而且没有重叠。我不确定OP认为统计数字是多少。很高兴你给他怀疑的好处。我对此采取了更愤怒的态度。
Michael R. Chernick

格雷格,您好,我很喜欢您的回答,但我可以这样解释:统计(科学)本身就是一种统计,它在x%的时间内(可能是x高)起作用,但是有1-x%的未知数/随机因素,我们始终需要注意。假设我们可以用任何#种(可能是无限的)方式对未知数建模,我们将永远不会知道x。希望这些离群值永远不会发生,但我们应该始终保持谨慎并谨慎对待保守派,特别是如果该事件是灾难性的(即小行星,金融产品,社会核事故和个人车祸)。这有意义吗?
statskeptic

@statskeptic,您所说的适用于所有领域,而不仅仅是统计。实际上,与其他字段相比,对真实统计数据的应用要少一些,因为正确进行统计时,假设是明确的。大多数情况下,统计数据失败不是技术,而是应用错误。在涉及不确定性的任何领域(除了宗教或纯粹的数学之外,几乎什么都不是,甚至还有一些),您都可以得到错误,无用或使用统计的答案。
格雷格·斯诺

(+1)表示统计资料是“利用数据和信息来面对变化来了解世界的科学”
半点通过

4

仅仅因为您在日常生活中不使用统计信息,并不意味着该领域不会直接影响您。当您在医生那里,并且他们推荐一种治疗方法时,您可以打赌,该建议的背后是许多临床试验,这些试验使用统计数据来解释他们的实验结果。

事实证明,即使您不亲自使用期望值的概念,它也非常有用。您以赌注来挽救生命的例子没有考虑到不利于您的风险。在其他情况下,您可能会发现自己的不良风险较小,或者没有灾难性后果。商业,金融,精算环境及其他就是例子。也许您正在签发房屋保险单-然后突然间知道在特定时间段内发生地震的可能性非常重要。

最后,统计数据是处理不确定性的好方法。在上一个示例中,您整理了一些有关想要旅行的地方的数据,并声称统计数据表明您永远不会在亚洲找到自己喜欢的地方。这是错误的。当然,这些数据会让您相信亚洲不太可能拥有自己喜欢的地方,但是您可以将先前的信念设置为自己喜欢的事物,而统计数据将告诉您如何根据新数据来更新自己的信念。此外,它使您能够以有原则的方式修改自己的信念,使您在存在不确定性的情况下采取合理的行动。


旅行的例子只是一个虚构的例子,但想法是统计数据无法捕获未知数。您的业​​务环境示例使我想到了WTC保险公司的示例,它可能估算了在不考虑飞机摧毁建筑物的情况下为建筑物提供保险的成本/收益,但这是最重要的一个。
statskeptic

+1 @ jjund3用于解决OP的特定问题,并在没有任何冲突的情况下混合贝叶斯和常客主义统计。
Michael R. Chernick

@statskeptic您的观点是统计不能解释所有可能的不确定性,这是一个好主意。但这不一定是完整而完美的有用。我们确实了解恐怖分子。在9/11之前,我们确实有恐怖分子执行自杀任务的例子,并且我们有劫机的经验。可以将这些信息拼凑起来,以确定是否有可能使飞机坠入世界贸易中心,尽管我们可能认为这是一个很小的可能性。
Michael R. Chernick

我们知道世界贸易中心是最喜欢的鹰嘴目标。之前曾在地下室放炸弹袭击过一次。炸弹的强度不足以造成所需的伤害,这一事实至少暗示着下次将使用一些非常不同的方法。当然,通常所说的后视是20-20。有很多例子,其中发生了意外或不可能的事情。但是,如果发生Challanger灾难,情况就不会如此。Thiokol工程师即使在数据有限的情况下也知道,由于低温下的O形圈故障,有些灾难性的故障存在。
Michael R. Chernick

1
@statskeptic您的论点与塔勒布(Taleb)在他的《黑天鹅》一书中对统计数据的怀疑/抨击非常相似。我认为我自己包括在内的许多统计学家在他的论点中都犯了一个漏洞,他基本上说统计学是无用的,因为它无法预测这种罕见且不可想象的事件(在您的示例中为9/11,他的股市崩盘)。
Michael R. Chernick

1

世界是随机的,不是确定性的。如果是确定性的,那么物理学家将统治世界,统计学家将失业。但现实情况是,几乎所有学科都对统计学家有很高的要求。这并不是说物理学和其他科学没有一席之地,但统计学与科学并驾齐驱,是许多科学发现的基础。

chat不休,具体到细节。我在医疗行业工作了17年,首先是医疗设备,然后是制药,现在是普通医学研究。定期在该国和世界范围内开发和批准可改善生活质量并经常挽救或延长生命的药物和医疗设备。在美国,批准需要在FDA允许将某种药物或医疗设备投放市场之前提供安全性和有效性的证据。FDA的证据来自分阶段的临床试验。所有的临床试验都需要有效的统计设计和分析方法。没有什么是完美的。药物对某些人有效,而另一些人可能没有反应或会有不良事件(不良反应可能导致疾病或死亡)。试验将无效药物与有效药物分开。大多数药物都失败了,从早期开发到第三阶段结束通常需要十年的周期,在试验结束时需要批准和销售。然后,也需要进行统计的售后监测被应用于确保该药物对普通人群足够有效。有时,与有资格参加临床试验的患者相比,批准使用该药物的普通人群的限制较少。因此,有时毒品确实很危险,并被从市场上撤出。统计有助于药物安全性的各个方面。然后,也需要进行统计的售后监测被应用于确保该药物对普通人群足够有效。有时,与有资格参加临床试验的患者相比,批准使用该药物的普通人群的限制较少。因此,有时毒品确实很危险,并被从市场上撤出。统计有助于药物安全性的各个方面。然后,也需要进行统计的售后监测被应用于确保该药物对普通人群足够有效。有时,与有资格参加临床试验的患者相比,批准使用该药物的普通人群的限制较少。因此,有时毒品确实很危险,并被从市场上撤出。统计有助于药物安全性的各个方面。

统计数据并不完美。由于随机性和不确定性,我们生活有一些错误。但这是可控的,我们的生活会得到改善,而且与不涉及统计科学的情况相比,错误也会减少。


不要误会我的意思。我了解所有事物中都有统计信息,即使具有量子力学的物理学也都与概率有关,并且没有统计信息就没有足够的原子来进行计算。我只想了解如何处理随机性和不确定性,这些随机性和不确定性比任何实际统计数据或分布都可能对我(或其他人)的生活产生更大的影响。
statskeptic 2012年

好的怀疑论者,所以您不会感到困惑。但是,为什么很难看到统计数据如何提高您的成功机会。概率论告诉您赢得机会游戏的几率。如果您可以在二十一点中使用索普的“击败交易者”策略,并且拥有大量的资金,从长远来看,您可以发大财。麻省理工学院的学生在拉斯维加斯证明了这一点,尽管由于混合使用多个甲板而减少了计数优势。是真的。赌场知道发牌柜台是一种威胁。
Michael R. Chernick 2012年

他们搜寻他们,当他们认为找到自己的人时,便将他或她扔出赌场而未提出任何问题。
Michael R. Chernick

另外,请不要以为我是在煽动你的职业。有一些计算机在统计上进行计算以节省电量,我尊重这一点。我只是想了解在统计方面比我了解更多知识的人如何处理这些问题。
statskeptic

@statskeptic我看到了我的原始帖子,对于我的初始评论深表歉意。他们是由主持人正确删除的。我想我误会了您想说的话。希望我们能很好地回答您的问题,并减轻您的一些怀疑。
Michael R. Chernick

1

对于决定单个事件的可能性,我本人也对概率和统计的有用性存有相同的怀疑。我认为,当目标是估计样本结果时,知道真实或估计的概率非常重要,无论是单个事件重复多次还是样本被某个特定人群淹没。简而言之,知道概率对赌场来说更有意义,他基于概率计算可以制定规则,以确保他从长远来看(在很多游戏之后)获胜,而不是对于假装玩一次的赌徒,所以他会赢还是输(这是一次运行实验的结果)。对于打算将焊锡发送到战斗中而损失10%的风险(概率)的将军来说,这一点也很重要,但是对于只将要死亡或幸存的某种焊料(例如,约翰)却不是。在现实生活中有很多这样的例子。

我想指出的是,概率统计不仅在现实生活中有用,而且更准确地说,它们是所有现代科学研究和决策规则的工具。但是,说理性意味着依靠单个事件的概率来估计结果,而没有意图或重复它的可能性是不正确的。基于某人的风险规避程度,影响某人决策的可能性趋势显然是主观的。风险规避者和风险爱好者对同一彩票(相同的期望值)有不同的态度(决定)。


就人们对不确定事件的反应而言,关于风险规避的观点很有趣。但是请注意,当经济学家考虑不确定性下的选择(例如,取决于世界状况的商品)时,真实概率通过公平赔率线(预算约束反映了精算公平赌博下的可能组合)发挥了作用。代理商的行为不仅仅根据他们的偏好(例如,风险规避),而且还取决于他们的预算约束(可用的赌博)和他们对公平赔率线的评估的相互作用。
银鱼

简而言之,并非所有规避风险的人“从不赌博”(广义上来说),只是不能以精算上的合理赔率诱使他们赌博。但是,足够的风险溢价(取决于他们的风险规避程度)可以改变该决定。由于这种分析取决于代理人对公平赔率的理解,因此即使是“一次性”,理性的代理人也会权衡概率。
银鱼

1-我并不是说厌恶风险的人永远不会赌博。2-我所说的“主观”是指知道彩票的期望值并不能决定一个人对彩票的态度。在所有其他条件相同的情况下,这种态度是个人特征的函数,个人特征是规避赌博预期效用的风险规避程度。经济理论中的3-理性取决于假设,因此是相对的。这就是为什么两个对同一期望值表现出不同态度的人都可以被称为“理性”。
Mohamed Lemine 2015年

我希望我们不要错过这个讨论的中心点,因为讨论的事实是,可能性极低的事件可能发生在任何线索中。反之亦然。
Mohamed Lemine 2015年

-4

长或短的是,概率是普通真/假逻辑对置信度在0和1之间的唯一概括。这是概率的逻辑贝叶斯解释,由RT Cox发起,随后由ET倡导。杰恩斯。

此外,在弱假设下,可以证明按偏好对不确定结果进行排序的正确方法是按预期效用对它们进行排序,而预期则是针对结果的概率分布而定的。

有关基于贝叶斯概率和期望效用的应用决策分析的介绍和说明,请参见Robert Clemen,“做出艰难的决策”。

您对常规的常客统计数据持怀疑态度是绝对正确的;根据其发明者(RA Fisher,J. Neyman,E. Pearson)的设计,它仅限于重复事件。但是许多日常问题并不涉及重复性事件。该怎么办?典型的方法是将方形钉逼入圆孔,然后移动球门柱。真可耻


4
-1在我看来,对常客主义统计数据的描述非常糟糕且不公平。对于贝叶斯方法,我不会持消极看法。但是贝叶斯主义者(任何阵营)都不能免于批评。信念程度是推理的主要内容吗?信念程度是主观的还是个人的,以便两个人可以给出两个不同的答案?事先分配的需求如何?应该如何挑选?关于推理的任何范式都有很多问题。但是,难道我们还没有超过对基金会的争吵阶段吗?
Michael R. Chernick 2012年

5
还有更多关于科学方法的知识,可以使我们团结起来,并大声说出,当面对怀疑论者时,统计学非常重要。取而代之的是,您同意怀疑者的观点,以便以频频的方式大吃一惊!那真是可耻。
Michael R. Chernick

@MichaelChernick:(1)简单地喊出统计数据很重要,这几乎不会引起怀疑。(2)贝叶斯推理对问题数据的关系与普通逻辑相同。也就是说,给定一些前提,您可以通过应用概率定律来提出解决方案。数据(例如任何先前的分发)既不正确也不错误;他们就是。理性的人不同意先前的分布,就像他们可能对其他任何问题数据一样。
罗伯特·多迪尔

2
我不介意讨论有关基础的问题。这是不合适的地方,我要向您指出的唯一一点是,我认为您的价格便宜,而且答案不适当。无需讨论统计基础。
Michael R. Chernick

4
拥抱大家。
布兰登·贝特尔森

-4

我对统计数据表示怀疑,原因如下。

  1. 我相信没有统计学专业学位的任何人都不知道他们在做什么。f 全球有数以百万计的人没有统计学的研究生学位就从事研究。我是公园大学马里兰大学的数学专业学生。我参加了4400级数学课程。老师所做的只是教你如何计算东西。除了假设检验外,没有人教我如何理解任何事物或进行统计分析,这有两个原因。
    1.对于我所教的每个假设检验,我必须事先做一些假设。没有人教我我必须从哪个假设开始。2. P值在逻辑上没有意义。统计专业的研究生学位可能会教您ap价值实际上是什么。但是,我确信没有一个本科生会使用它。本科生的定义假设某种概率取决于假设的正确性。从逻辑上讲,该定义完全没有意义。更糟糕的是,NOBODY从来没有告诉过我概率从何而来。如果有人可以给我答复,我实际上已经几乎给我整个数学系(超过200人)发送了电子邮件。最受欢迎且唯一的回答是“必须对误差率假设误差”(当我问人们如何做到这一点时,他们都回答了我“
    当我搜索ap价值的意义时,发生了同样的事情。这使我得出结论...

  2. 甚至一个信号。许多数学和统计学教授不知道统计学背后的逻辑是什么。我不希望人们有深入的知识。但是,我什至有个信号。%的研究和教授不了解统计学背后的任何潜在逻辑。

  3. 统计错误与实际错误不同。因为人们喜欢使用统计数据来得出对巨大事物的估计,所以人们喜欢使用统计误差来“掩盖”他们不知道实际误差是什么的事实。

  4. 人们将小样本用于大量人口,因为统计理论告诉他们可以。我从我的一门大学课程中学到,人们喜欢使用来自该国大约30所学校的估计数据来表明,全国的学校很少发生暴力事件。大约有100,000所学校。听起来很疯狂。整个流行运动的基础是全国大约30所学校。

  5. 人们喜欢对举证责任进行统计。从未发现希格斯怀抱。它是通过统计发现的,但这并不代表任何意义。纯粹通过统计发现的东西是没有用的,因为没人知道统计的准确性。

  6. 人们喜欢使用统计数据做出重要的决定。可以将统计信息用作指导,但没人知道它的准确性。仅仅因为问题似乎无法解决并不意味着统计是次要的事情。DNA测试基于统计数据的事实使我感到不寒而栗。可以因为统计数字而被判处死刑吗?可以因为统计数字将凶手从监狱里释放吗?

我相信统计数据会有用,但前提是不能将其用作结论。我相信统计数据可以告诉我们一些可能性。然后应使用逻辑而非统计逻辑来证明哪种可能性是正确的。


1
“ ...没用,因为没人知道统计的准确性”,并且您抱怨从学校或DNA样本之类的统计证据中得出结论,这表明您不信任统计推断。然而,通常有限的样本是所有可用的证据,或者是您可以负担得起的所有数据。如何权衡这样的证据?我们面临不确定性,因为我们的样本无法准确反映更多的人群。推论处理不确定性,例如,置信区间测量样本统计数据(例如样本均值)中的不确定性(大致上,统计信息的“准确性”是已知的)。
银鱼2015年

2
“教授们不了解统计学背后的任何潜在逻辑”-统计学有一些根本不同的观点(例如,参见贝叶斯-弗洛伦斯主义的辩论),但是大多数人对于将其应用于特定问题的技术很务实。在大学本科课程中,这可能一点都不重要,但有一天统计数据的原理肯定不是随便写出来的。至于p值,“从逻辑上讲,定义根本没有任何意义”:也许您应该在CV上咨询这个问题
银鱼

1
在SE网站上,投机性言论不被视为适当的答案。他们可能很有趣-可能包含一些真相,就像我相信的那样-但最终他们死于可悲的死亡,就像在麦克白思
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.