在一个经常由外行进行分析的时代，我们是否夸大了模型假设和评估的重要性？

54

底线是，我对统计知识了解的越多，对本领域发表的论文的信任就越低；我只是认为研究人员的统计数据不够好。

我是一个外行，可以这么说。我接受了生物学方面的培训，但没有接受过统计学或数学方面的正规教育。我喜欢R，并且经常努力阅读（并理解...）进行研究时所用方法的一些理论基础。如果今天进行分析的大多数人实际上没有经过正式培训，这也不会令我感到惊讶。我发表了大约20篇原始论文，其中一些已被知名期刊所接受，而统计学家经常参与到审阅过程中。我的分析通常包括生存分析，线性回归，逻辑回归，混合模型。审阅者从未询问过模型假设，拟合或评估。

因此，我从未真正对模型假设，拟合和评估感到困扰。我从一个假设开始，执行回归，然后给出结果。在某些情况下，我努力评估了这些情况，但最终我总是以“ 好吧，它并不能满足所有假设，但是我相信结果（“主题知识”），并且它们是合理的，所以很好 ”和在咨询统计学家时，他们似乎总是同意。

现在，我已经与其他自己进行分析的统计学家和非统计学家（化学家，医师和生物学家）进行了交谈。似乎人们对所有这些假设和正式评估并没有太在意。但是在简历上，有很多人在询问残差，模型拟合，评估残差的方法，特征值，向量，等等。让我这样说，当lme4警告大型特征值时，我真的怀疑它的许多用户是否在意解决这个问题。

值得付出额外的努力吗？是否所有发表的结果中的大多数都不遵守这些假设，甚至可能没有对它们进行评估？这可能是一个日益严重的问题，因为数据库每天都在增长，并且有一种观念认为，数据越大，假设和评估就越不重要。

我可能是完全错误的，但这就是我对此的看法。

更新： 引自StasK的引用（如下）：http : //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

mathematical-statistics multiple-regression modeling

— 亚当·罗宾逊
source

34

我要警告，结束这个问题将使我们失去一个重要的机会，来讨论在统计部门之外的“现实世界”中如何使用统计数据。CV是现实世界中的人们和统计学家相处的少数场所之一，保持沟通交流畅通是CV的一项重要任务，尽管隐含了任务。我完全同意那些单击“关闭”的人，因为这是非常广泛且基于意见的，但我仍然希望我们能够继续进行讨论。

— StasK，2015年

5

那不是事实，许多出版物，研究人员甚至整个领域的治疗假设随便建议我们不关心不够？统计学家和教科书也有可能夸大其重要性，但可以肯定的是，它们在从业人员和非专业人士中的受欢迎程度不能成为衡量标准。约定和标准也相差很多。有些学科可能比您熟悉的学科更关心此问题，而另一些学科可能并不关心对于在您的领域中发表非常重要的事情。

— 晚会

6

写了一篇评论文章，批评了先前的研究，在该研究中故意违反了模型假设并得出了错误的结论，我的建议是不要相信结果，并且要尽可能自我批评。

— 迪克兰有袋博物馆，2015年

7

“数据越大，假设就越不重要”对于数据的实际增长并不成立：增长的（主要是）由于测量技术的进步而导致的相关观测值/特征的数量。相反，独立观测的数量（即实验单位或先证者）仍然相当有限（因为人口不会因技术进步而增加...）。不幸的是，由于中心极限定理，只有大数据与独立性使假设（通常，并非总是如此）的重要性降低。

— HorstGrünbusch，2015年

3

@AdamRobinsson：我喜欢您在问题顶部发表的结论。对于由大人物发表或由大机构支持的论文，我会更加警惕。当我在顶级期刊中看到来自受尊敬的机构的15位资深作者的论文时，我的第一个直觉实际上是对论文进行更多的审查，因为该论文可能是由于作者/机构的影响力而发表的。这些论文也往往具有深远的政策含义。我所在领域（公共卫生）的一个例子是男性包皮环切术用于HIV预防研究（续）

— 侯爵侯爵夫人

26

我受过统计学家的培训，而不是生物学家或医学博士。但是我进行了大量医学研究（与生物学家和医学博士合作），作为研究的一部分，我学到了很多有关几种不同疾病的治疗方法。这是否意味着如果一个朋友问我所研究的疾病，我可以给他们写一张我知道通常用于该疾病的药物处方？如果我要这样做（我不这样做），那么在很多情况下，它可能会行得通（因为医生只会开相同的药），但总有可能他们有过敏/药物互动/医生可能会问的其他问题，我不会这样做，最终造成的危害大于弊。

如果您在进行统计时不了解自己的假设和可能出了什么问题（或在寻求统计信息的过程中咨询统计学家），那么您正在练习统计错误。在大多数情况下，这可能是可以的，但是如果一个重要的假设不成立，而您只是忽略了它，那该怎么办？

我与一些在统计学上有能力的医生合作，他们可以做很多自己的分析，但是他们仍然会超出我的范围。我通常会确认他们做了正确的事，并且可以自己进行分析（他们通常对确认表示感谢），但有时他们会做一些更复杂的事情，当我提到更好的方法时，他们通常会将分析移交给其他人。给我或我的团队，或者至少让我参与其中。

因此，我对您的标题问题的回答是“不”，我们并不是在夸大其词，而是应该更多地强调一些事情，以使外行人更有可能至少与统计学家再次核对其程序/结果。

编辑

这是基于以下亚当评论的补充（对于另一条评论会有点长）。

亚当，谢谢您的评论。简短的回答是“我不知道”。我认为在提高文章的统计质量方面正在取得进展，但是事情以许多不同的方式发展得如此之快，以至于需要一段时间才能保证质量。解决方案的一部分将重点放在Instats课程中违规的假设和后果上。在统计学家教课时，这种情况更有可能发生，但需要在所有课上进行。

一些期刊的情况更好，但我希望看到特定的统计学家审稿人成为标准。几年前有一篇文章（对不起，参考文献不多，但无论是在JAMA还是《新英格兰医学杂志》上）都被发表的可能性更高（尽管相差不大如果是生物统计学家或流行病学家之一，则可以在JAMA或NEJM中进行。

最近发表的一篇有趣的文章是：http : //www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412，其中讨论了一些相同的问题。

— 格雷格·雪诺
source

1

我同意你的观点，格雷格。我认为您的答复清楚地说明了这一点。但我想引述您的话：“ [...]那么您正在从事统计不当行为。在大多数情况下，这可能还可以。” 这种概念可能会传播开来，人们可能会认为它是：任何人都可以进行统计（如果您问我，那是谁在统计表面上有些scratch头，这根本是错误的）。问题是，我们如何才能确保已发表的作品在统计分析方面是正确的？因为我开始怀疑那里有多少篇文章没有通过统计学家……

— 亚当·罗宾逊2015年

@AdamRobinsson，请参阅上面的内容。

— 格雷格·斯诺

这是相当精英的。我同意专业统计学家可能具有进行统计分析的能力和专业知识，但科学家们也可以。确实，统计学的一些突破性进展来自在现实世界中从事统计学工作的科学家（例如Fisher和Jeffrey）。

— innisfree

奇怪的是，构成统计错误的原因不仅取决于统计分析的质量或结果，还取决于对分析师对统计数据的了解的主观判断

— innisfree

@innisfree，我不了解您的评论，或者您不了解我的立场。我并不是说只有统计学家才能查看这些假设/条件，只是假设它们很重要，应该咨询统计学家，或者非统计学家的科学家应该学习足够的统计学知识，以了解问题，而不仅仅是插入数字。进入公式/计算机。就个人而言，我希望看到更多具有医学/工程学等专业知识的统计专业的未成年人，同时也对统计概念有更好的理解。

— Greg Snow

28

好吧，是的，假设很重要-如果它们根本不重要，我们就不需要制作它们，对吧？

问题是它们有多重要-随程序和假设的不同而不同，您要对结果提出什么主张（以及这些主张中听众的容忍度是近似的，甚至是不准确的）。

因此，以假设为关键的情况为例，请在方差F检验中考虑正态性假设。即使分布上的适度变化也可能对过程的属性（实际显着性水平和功效）产生相当大的影响。如果您声称要在5％的水平上进行测试，而实际上却是在28％的水平上进行测试，则从某种意义上说，您所做的事情与对实验进行方式的谎言相同。如果您认为这样的统计问题不重要，请提出不依赖它们的论点。另一方面，如果您想使用统计信息作为支持，则不能曲解地表示该支持。

在其他情况下，特定的假设可能没有那么严格。如果您在线性回归中估算系数，而又不在乎统计意义是否重要，又不在乎效率，那么，是否保持同方差假设并不一定重要。但是，如果您要说它具有统计意义，或显示出置信区间，是的，这当然很重要。

— Glen_b
source

2

从统计方法到假设的重要性，Glen_b的评论已广为人知。我认为，还应该指出的是，出于发布的目的，对假设的检查是稍有不同的事情，因为对假设的违反仅与审阅者或编辑者关心它们的重要性一样重要。例如，结果背后的理论可以为出版提供足够的价值，其中希望分析的问题可以由将来的出版物解决。

— 乔纳森·利西奇

好吧，即使审稿人检查了论文，但有错误的责任仍由作者承担。因此，

— 出于个人

确实，责任将始终由作者承担。但是如今，作者受到不适当驱动程序的推动，这些驱动程序迫使他们进行发布，而很少以快速而肮脏的方式进行发布。我希望看到一个审查过程，该过程要求宣布最关键的统计假设。如今，已经根据本书完成了统计分析，这是理所当然的，但我相信它比平常少见。

— 亚当·罗宾逊

3

+1“问题是他们有多重要”-本质上使整个问题简而言之。我还要指出，在应用统计推断时，不可能知道违反某些统计假设的程度。我们只能假设或考虑分析的稳健性，这是统计实践中必不可少但经常被忽视的一个方面。

— heropup 2015年

18

尽管Glen_b给出了一个很好的答案，但我想补充一点。

一个考虑因素是您是否真的想获得科学真理，这将需要完善您的结果并弄清楚您的方法是否可辩护的所有细节，而不是发表“嗯，无论如何，没人会检查我学科中的这些特征值”模式。换句话说，您必须问自己内心的专业良知，您是否正在尽自己最大的能力。在您的学科中提及较低的统计素养和宽松的统计实践并不能令人信服。如果审查人员来自与这些宽松标准相同的学科，那么他们通常最多只能提供一半的帮助，尽管一些顶级机构采取了明确的举措将统计专业知识带入审查流程。

但是，即使您是一个愤世嫉俗的“发布或灭亡”的萨拉米切片机，其他考虑因素基本上还是您研究声誉的安全性。如果您的模型失败了，而您却不知道，那您就会冒着被那些可以使用更精致的工具将斧头带入模型检查裂缝中的人暴露的风险。诚然，尽管科学界对信誉和可复制性的名义上的哲学要求，但很少有人尝试复制他人的研究，因此，这种可能性似乎很小。（我参与了几篇论文的撰写，基本上以“哦，天哪，他们真的并提供了对同行评审的已发表半统计方法的批评和完善。）但是，如果暴露出统计分析的失败，通常会引起大而令人不快的飞溅。

— 斯塔克
source

我真的很喜欢这种方法：专业的良心，我相信很多人都有良心，但仍然缺乏知识；但这并不会阻止他们呈现数据，就好像它做得很好一样。有趣的是，您引述了《科学》杂志的一篇文章，其中清楚地阐明了这一点：“ [...]人们普遍担心，数据分析中的基本错误正在导致许多已发表的研究结果的不可再现性。” 我确实认为我们是外行，我们并不真正尊重统计方法的困难，如上所述，这应该是一个日益严重的问题。

— 亚当·罗宾逊

1

在我目前的研究小组中，我们有15位研究人员（生物学家，医师），其中一些人的确富有成效，但统计学家却没有。所有初级研究人员都已经安装了R或SAS并进行了计算，通常是在Internet上只阅读了很少的教程之后。这是一个大问题。

— 亚当·罗宾逊

4

@AdamRobinsson，您在CV上问到的事实确实说明了您的良心。在与科学计算有些相关的问题上（以及科学家编写自己的C / Fortran / R代码缺乏对软件开发最佳实践的实施），您可以仔细阅读Nature的另一个链接-nature.com/news/2010 /101013/full/467775a.html。

— StasK，2015年

3

作为科学界，尽管对信誉和可重复性提出了名义上的哲学要求，但很少进行尝试复制他人研究的尝试， 我完全同意这一说法。

— 罗伯·史密斯

software-carpentry.org，“致力于向研究人员教授基本计算技能的志愿者非营利组织”，提供了不错的教程和研讨会。

— 丹尼斯

9

违反假设的性质可能是未来研究的重要线索。例如，在Cox生存分析中违反比例风险假设的原因可能是由于变量对短期生存影响较大，而对长期生存影响很小。这是通过在统计测试中检查假设的有效性而可以获得的意外但潜在的重要信息。

因此，如果您不检验基本假设，那么您自己（而不仅仅是文献）可能会造成伤害。随着高质量期刊开始要求进行更复杂的统计审查，您会发现自己经常被要求这样做。您不希望处于统计审查员要求的测试破坏您认为一直是论文重点的位置。

— 教育部
source

我完全同意这一评论，我认为这很重要。

— 亚当·罗宾逊，2015年

9

我将从中间角度回答。我不是统计学家，我是化学家。但是，我在过去的10年中一直专注于化学计量学=化学相关数据的统计数据分析。

我只是认为研究人员的统计数据不够好。

可能就是这种情况。

简洁版本：

现在介绍假设。恕我直言，这里的情况太过复杂，无法一言以蔽之。为了判断违规是无害的还是至关重要的，有必要了解该假设究竟需要什么以及该假设可能以何种方式被违反。这需要统计信息和应用知识。
但是，作为一个面临无法实现的假设的从业人员，我还需要其他一些东西：我想拥有一个“第二道防线”，例如，它可以让我判断违规行为实际上是在引起麻烦还是对他们无害。

长版：

从实践的角度来看，一些典型的假设几乎从未得到满足。有时我可以对数据制定合理的假设，但是从统计的角度来看，问题常常变得如此复杂，以至于解决方案尚不为人所知。到目前为止，我相信做科学意味着您将不仅可能在您的特定学科中而且在其他学科（这里是应用统计学）中都已广为人知。
在其他情况下，某些违规通常通常是无害的-例如，需要LDA的协方差相同的多元正态性以表明LDA是最佳的，但众所周知，投影遵循启发式方法，如果假设不满足。哪些违规行为可能会造成麻烦：在实践中，众所周知，分发中的尾巴过多会导致LDA出现问题。
不幸的是，这种知识很少将其浓缩成一篇论文，因此读者不知道作者是否在考虑了应用程序和模型的特性之后是否决定了他们的模型，或者他们只是选择了什么模型他们碰到了。
有时会演变出实用的方法（启发式方法），从实用的角度来看非常有用，即使要花数十年才能了解它们的统计属性（我正在考虑PLS）。
发生的另一件事（并且应该发生更多）是可以监视（衡量）违规的可能后果，从而可以确定是否存在问题。对于应用程序，也许我不在乎我的模型是否最佳，只要它足够好即可。
在化学计量学中，我们非常注重预测。在不满足建模假设的情况下，这提供了很好的解决方法：无论这些假设如何，我们都可以衡量模型是否运行良好。从实践者的角度来看，我要说的是，如果您进行建模并报告诚实的最新验证，则可以在建模过程中做任何您想做的事情。
对于光谱数据的化学计量分析，我们处于不考虑残差的地步，因为我们知道模型很容易过拟合。相反，我们着眼于测试数据性能（以及可能与训练数据预测性能的差异）。
在其他情况下，虽然我们无法准确预测违反哪个假设会导致模型崩溃，但是我们能够相当直接地衡量严重违反假设的后果。
下一个例子：我通常处理的研究数据比每个变量的病例的统计经验法则建议的样本大小要低几个数量级（以保证稳定的估计）。但是，如果无法满足此假设，那么统计资料通常不会在乎实际操作。也没有如何衡量您在这方面是否真的遇到麻烦。但是：这些问题在更多的应用学科中得到了解决。事实证明，通常很容易直接测量模型的稳定性，或者至少测量您的预测是否不稳定（在此处阅读有关重新采样验证和模型稳定性的CV）。并且有一些方法可以稳定不稳定的模型（例如装袋）。
作为“第二道防线”的示例，请考虑重采样验证。通常最严格的假设是所有替代模型都等同于在整个数据集上训练的模型。如果违反了这一假设，我们将得到众所周知的悲观偏见。第二行是，至少代理模型彼此等效，因此我们可以汇总测试结果。

最后但并非最不重要的一点，我想鼓励“客户科学家”和统计学家互相交流。恕我直言，统计数据分析不是单向的。在某些时候，每一方都需要获得另一方的一些知识。我有时会帮助统计学家，化学家和生物学家之间进行“翻译”。统计人员可以知道该模型需要正则化。但是，要在LASSO和山脊之间进行选择，他们需要知道只有化学家，物理学家或生物学家才能知道的数据属性。

— 方铅矿
source

6

鉴于简历是由统计学家和对统计数据感到好奇的人组成的，即使他们不称职，我也对所有强调强调理解假设的答案并不感到惊讶。我原则上也同意这些答案。

但是，考虑到当前发布的压力和统计完整性的低标准，我不得不说这些答案很幼稚。我们可以告诉人们他们整天应该做什么（即检查您的假设），但是他们将做什么完全取决于制度上的激励。OP自己声明，他在不了解模型假设的情况下设法发表了20篇文章。根据我自己的经验，我并不难以相信。

因此，我想扮演魔鬼的拥护者，直接回答OP的问题。这绝不是促进“良好实践”的答案，而是反映出如何讽刺地实践事物的一种答案。

值得付出额外的努力吗？

不，如果目标是发布，那么花所有时间了解模型是不值得的。只需遵循文献中流行的模型即可。这样，1）您的论文将更容易通过审核，并且2）被暴露于“统计上的无能”的风险很小，因为暴露您意味着暴露整个领域，包括许多资深人士。

是否所有发表的结果中的大多数都不遵守这些假设，甚至可能没有对它们进行评估？这可能是一个日益严重的问题，因为数据库每天都在增长，并且人们认为数据越大，假设和评估就越不重要。

是的，大多数发布的结果可能都不正确。我参与实际研究越多，我认为它的可能性就越大。

— 海森堡
source

1

我认为您有一些上面没有提到的非常好的观点；即出版的压力和期刊的压力，以寻找填补期刊的文章。对于编辑人员来说，没有文章要发表是一场噩梦，研究人员必须为自己的存在而发表。但是，从方法论的角度来看，我参与研究的次数越多，就越相信（从统计学的角度来看）大多数已发表的发现在不同程度上是错误的/更少正确的/不完美的。

— 亚当·罗宾逊，2015年

4

最简洁的答案是不。” 统计方法是根据一系列假设制定的，这些假设必须满足才能使结果有效。因此，有理由认为，如果不满足假设，则结果可能无效。当然，尽管违反了模型假设，但某些估计仍可能是可靠的。例如，尽管违反了IIA假设，多项式logit仍然表现良好（请参阅下面参考文献中的Kropko [2011]论文）。

作为科学家，即使现场人员不在乎是否已达到假设条件，我们也有义务确保在那里得出的结果是有效的。这是因为科学建立在这样的假设之上，即科学家在追求事实时会以正确的方式做事。我们信任我们的同事在将其发送到期刊之前先检查他们的工作。我们相信裁判能够在稿件发表之前对其进行审阅。我们假设研究人员和裁判员都知道自己在做什么，因此可以信任在同行评审期刊上发表的论文的结果。我们知道，在现实世界中，这并非总是正确的，因为文献中的文章数量之多，最终导致您摇摇头并注视着受人尊敬的期刊中明显被樱桃挑选的结果（“ Jama发表了这篇论文？！ ”）。

所以不，重要性不可低估，尤其是因为人们相信您（专家）会尽职调查。您至少可以做的是在论文的“限制”部分中谈论这些违规行为，以帮助人们解释您的结果的有效性。

参考

Kropko，J.2011。政治研究的离散选择和时间序列截面方法的新方法（论文）。UNC教堂山，北卡罗来纳州教堂山。

— 卡拉奎斯侯爵
source

我同意这些宝贵的意见。但是，您不认为“可能无效”中的“可能”是人们可能不会太在意他们的原因。我认为，假设的存在可能会引起与该问题相关的分析偏见。

— 亚当·罗宾逊

TIL Kropko是一名简历用户。

— 恢复莫妮卡

@AdamRobinsson，我认为人们不会打扰他们，因为他们不完全了解结果如何或为何无效。问题的很大一部分在于“应用”领域的统计教育。我自己的训练是在应用领域中的。我的计量经济学精讲课没有冒充完整的计量经济学课，因此被称为“高级研究方法”或类似的东西。由于没有统计先决条件，因此教授会掩盖模型假设，而倾向于花更多时间在Stata命令和结果解释上。

— 侯爵·加拉巴斯

@AdamRobinsson，我第一次是研究生课程，也是针对应用领域的，但是这些课程是由生物统计学家教授的。生物统计学家对模型假设和我们应该做的各种检查进行了深入的讲授，因为班上的某些学生是生物统计学学生。但是，很明显，在这些班级中的其余学生不理解我们为什么要检查这些假设，因为教授们没有用学生能够理解的语言传达其重要性。

— 马奎斯·德卡拉巴斯

1

@marquisdecarabas，表示同意。显然，不了解它们是一个基本问题。但是，有时我想知道这是否不是由于花费在数据操作上的时间如此之长，从而浪费了人们进行假设的欲望。

— 亚当·罗宾逊，2015年

2

如果您需要非常高级的统计信息，则最有可能是因为您的数据很混乱，大多数社会科学就是这种情况，更不用说心理学了。在那些拥有良好数据的字段中，您只需要很少的统计信息。物理学是一个很好的例子。

考虑伽利略在他著名的重力加速度实验中的这段话：

取一块木制的模制件或小物件，长约12肘，宽半肘，宽三指。它的边缘被切开了一个多于一个手指的通道。使该凹槽非常笔直，光滑且抛光，并用羊皮纸衬里，也尽可能平滑和抛光，我们沿着它滚动了一个坚硬，光滑且非常圆形的青铜球。将板放置在倾斜位置后，通过将一端提升到另一端一个或两个肘位，我们沿通道滚动了球，正如我刚才所说的那样，以目前要描述的方式指出了所需的时间下降。我们多次重复该实验，以精确地测量时间，以使两次观测之间的偏差永远不会超过脉搏的十分之一。完成此操作并确保了其可靠性之后，我们现在将球滚动到通道长度的四分之一处。在测量了下降时间之后，我们发现它恰好是前者的一半。接下来，我们尝试其他距离，将整个长度的时间与一半的时间，三分之二或四分之三的时间进行比较，或者对任何分数进行比较。在这样的实验中，重复了整整一百次，我们总是发现所遍历的空间彼此之间都是时间的平方，这对于平面的所有倾斜度（即通道沿其滚动的通道）都是正确的球。我们还观察到，对于飞机的各种倾斜度，下降时间正好相互精确地对应着该比率，如下所述，

为了测量时间，我们使用了放置在高处的大容器；在该容器的底部焊接一条小直径的管子，以产生一束细小的水流，在每次下降期间，无论是通道的整个长度还是部分长度，我们都将其收集在小玻璃杯中。每次下降后，如此精确称重所收集的水的重量；这些权重的差异和比率为我们提供了时间的差异和比率，其准确性很高，尽管多次重复了该操作，但结果没有明显的差异。

请注意我突出显示的文本。这就是好的数据。它来自基于良好理论的精心计划的实验。您不需要统计信息即可提取您感兴趣的内容。当时没有统计信息，也没有计算机。结果？一个基本的基本关系仍然存在，可以由六年级生在家中进行测试。

我从这个很棒的页面上偷了报价。

$\chi^2$

— 阿克萨卡尔族
source

2

“在那些拥有良好数据的领域中，您只需要很少的统计数据。物理学就是一个很好的例子。” 我明白了这一点，但值得指出的是，粒子物理学家既有大量的数据，又开发了一系列先进的统计技术来分析它们。

— 银鱼

@Silverfish，您能给我例子那里的高级统计吗？我所看到的并没有给我留下深刻的印象。我认为，普通的经济学博士生比世界一流的粒子物理学家了解更多的统计数据。物理学家真正擅长的是统计力学之类的东西，但这与我们所谓的“高级统计”有很大不同。我完全同意您的观点，他们的数据集令人难以置信，他们在“大数据”成为一个令人讨厌的流行词之前就开始了大数据。

— 阿萨卡（Aksakal）

1

他们对“置信区间”非常有意思，特别是对于不能为负的参数，请参见例如en.wikipedia.org/wiki/CLs_upper_limits_%28particle_physics%29

— Silverfish

（我认为将入门课程的第1天作为代表粒子物理学家所需的所有统计数据的代表可能是不公平的！）

— Silverfish

@Aksakal，我个人的理解是，当模型不确定性很小时，贝叶斯方法会产生疑惑，例如，在进行了5,000维积分之后，硬科学中的模型就是Schrodinger方程为您提供的模型。在经济学上，鉴于经验研究者将重点放在对潜在的主要模型错误指定具有鲁棒性的推理上，贝叶斯方法将难以生存。（我是本科学历的物理学家，尽管20年来没有做过任何物理学，现在是按工作原理的定量社会科学家。）

— StasK 2015年

2

这个问题似乎是职业正直的案例。

问题似乎在于：或者（a）没有足够的非专业人士对统计分析进行严格的评估，或者（b）一个常识不足以识别统计错误（例如2型错误）？

我对我的专业领域非常了解，当我接近专业领域时，可以要求专家提供意见。我已经看到人们在没有足够知识的情况下使用F检验（在Excel中为R平方）之类的东西。

以我的经验，由于我们渴望促进统计，教育系统过度简化了工具，并低估了风险/极限。这是其他人经历过并会解释这种情况的共同主题吗？

— 标记
source