您如何向没有统计背景的人解释统计意义？

11

背景：
我必须为绝对是统计初学者的客户（某种律师）进行数据分析。他问我“统计意义”一词的含义，我真的试图解释它……但是由于我不擅长解释事情，所以我失败了；）

statistical-significance inference communication

— Daniel Ryback
source

15

差异是偶然的结果。

当我们认为某件事在统计上很重要时，我们相信差异大于合理地解释为偶然事件的可能性。

— 查尔斯
source

我喜欢机会的使用，但认为就重要性测试的常用方式而言，这极具误导性。例如，大样本量意味着您几乎总是会因“机会”基线差异而变得有意义。尽管偶然地合理地解释了这些结果，但可以将这些结果称为“统计上有意义的”，这已被广泛接受。

— Flask 2013年

@Flask：这些基线差异在什么意义上是由于偶然因素造成的？

— Scortchi-恢复莫妮卡

@Scortchi如果已执行随机化，则差异可能是偶然的缘故。看这里。即使已经执行了某些操作，以后也可能会引入偏差。看这里。如果尚未执行随机化，则可能是由于偶然或调查员的偏见或许多原因。

— Flask 2013年

1

有用的答案，只是它仅适用于差异检验。

— rolando2 2013年

2

+1这是一个很好的答案，因为它避免了p值，概率，分布，零假设等的奥秘，并以适用于大多数律师所要处理的方式直截了当。重点可能不是很全面：细节和变化可以在以后处理。如果迫于无奈，我要做的主要改变将是强调关于统计意义的信念是基于数据的：这会将这种描述与例如神学信念区分开。

— ub

3

注意：我想在这个答案中强调的是统计显着性是一个有用的工具，但也不同于事实。

拿一包52张卡片。如果我的客户是无辜的，那是一副普通的卡片，共13张心。如果我的客户在说谎，那是固定的包装，所有52张卡片都是心脏。

我画了第一张牌，这是一颗心。啊，有罪！好吧，很明显，常识告诉我们事实并非如此：即使他是无辜的，也会有四分之一的机会发生这种情况。仅看一张卡片就没有统计意义。

因此，我们抽出第二张牌。另一颗心。嗯...那一定是有罪的！好了，剩下的51张卡片中仍然有12张红心，所以这并非没有可能。数学（13/52 * 12/51 = 0.0588）告诉我们，即使是无辜的，这种情况也会发生大约6％的时间。对于大多数科学家来说，这仍然不算数。

画第三张牌，另一颗心！连续三个。发生这种情况的可能性为（13/52 * 12/51 * 11/50 = 0.01294），因此，偶然发生这种情况的可能性超过1％。

在许多科学中，5％用作临界点。因此，如果除了这三张牌之外，您没有其他证据，那么您在统计上就可以证明他有罪。

重要的一点是，允许您查看的牌越多，您对他的内感的信心就越大，这是另一种说法，即统计学意义越高。

注意：除非允许您查看14张卡片，否则您永远不会证明他有罪。理论上，使用一包普通的纸牌可以连续绘制13张心，但是不可能有14张心。[除了学步车：我们假设卡片上的数字不可见；所有卡都是四种可能的西装之一，就是这样。

注意：当您抽出除心脏以外的任何卡片时，您就可以证明他的纯真。这是因为只有两种可能的包装：正常或全心全意。现实生活更加复杂，数学也变得更加复杂。

顺便说一句，如果您的客户不是纸牌玩家，请尝试“大富翁”（Monopoly）。但如果有人每次怀疑时都会掷双六的话。统计数据仅使我们能够准确地确定我们应该多可疑。

— 达伦·库克（Darren Cook）
source

3

我个人的建议是不要谈论以下事情：

p值
测试统计
事情偶然发生的可能性。

不要对律师太在意。这是一个受过良好教育的人，至少在大学统计学课上度过了一个学期，但其中的一点点都没有。对于与我合作过的几乎所有其他非科学家来说，情况都是一样的-统计意义并不固定。这个概念太不自然了。

我鼓励您用证据解释统计意义。古典统计学家在0到1的范围内对证据进行编码，其中较小的值构成更多的证据，而按常规绘制界限则为0.05。

— 本·奥戈里克
source

imo信号的想法。可以坚持非科学家如果人们走得那么远，通常被认为是不自然的技术定义。就证据而言，这当然是关于证据的问题：问题是人们如何统计地处理证据，以便做出关于信号的决定。

— rolando2 2013年

我喜欢您的乐观态度，但我不同意对于典型的人来说，统计意义完全与证据有关。我认为，当您的数据集变得足够大且所有计算出的数字现在都以某种方式“有效”时，他们会将其视为翻转时的某种切换。您是在说，对于外行人来说，重要的是要知道如何量化证据，因此，准备好讨论一下您可能最初并不相信真实假设的假设下计算出的概率。

— Ben Ogorek 2013年

啊，但是如果您谈论证据，那就进入贝叶斯国土。

— Arthur B.

1

我认为贝叶斯主义者没有“证据”（概念），尽管他们肯定已经将其形式化了。我认为小p值就是某些东西的证据。

— Ben Ogorek 2013年

1

“具有统计意义的意义”是指某些事情可能只是随机发生的，但可能性很小。相反，更有可能是某种原因造成的。您应该使用与您的客户相关的示例对此进行更具体的说明，因为该说明是如此抽象。

例如，如果律师安妮（Anne）平均赢得的案件比比尔（Bill）多得多，这可能只是随机发生的。但是，如果安妮（Anne）在统计上赢得了更多案件，那么很有可能有某种东西可以帮助解释安妮（Anne）比比尔（Bill）赢得更多案件的原因。我们不知道原因。也许安妮是个更好的律师，或者比尔故意选择了难度更大的案件。

— 乔纳森
source

0

保持简洁明了！

p值定义为在假设null为真的情况下获得或超过观察到的结果的可能性。如果p值足够小，则null可能不正确。对于我们认为足够小的“ alpha”，我们可以任意选择一个截止值；对于所有低于alpha的p值，我们都拒绝使用null。

这就是我向简介统计课解释的方式。

— TrynDoDoStat
source

但是，如果您无法选择合理的零假设（即没有两组人完全相等，但是您也没有足够的信息来预测比mean1 = mean2更好的东西）怎么办？在不提及限制的情况下解释统计意义可能有害。

— 烧瓶

0

我会尽力。

首先，您需要根据平均数据以及数据的可变性来计算p值。变量越大，获得小的p值的可能性就越小。另一方面，例如，如果要比较两个组，则它们的平均值之间的差异越大，则p值越小。

而且，通过具有更多数据，可以在某种程度上抵消数据的可变性。以两个平均值之间相同的差异和相同的可变性对两组数据进行成像。在这种情况下，样本量较大的集合的p值较小。

测试部分只是查看p值是否小于某个数字。通常人们使用.05，但这是任意的社会习惯。许多人认为使用任意数字是没有意义的，但是由于历史原因，这种情况非常普遍。

还请记住，仅仅因为您的显着性检验表明两组之间存在差异，并不意味着您知道为什么存在差异。另一方面，如果测试表明没有显着差异，那可能仅仅是因为您的可变性太大，并且您没有足够的数据来获得低p值，这并不意味着没有实际差异。

编辑：

综上所述，较低的p值意味着有更多的证据反对这一预测：

与预测结果的差异->下p值

更多数据->下p值

更多可变性->向上p值

p值下降意味着更多证据表明该预测是错误的。历史上的每个预测都显示为假到小数点后一位。

— 烧瓶
source

0

统计重要性是用于提供接受或拒绝给定假设的理由的概念。给定一组数据，分析师可以计算统计数据并确定不同变量之间各种关系的大小。

统计工作是确定数据是否包含足够的证据，以使您能够得出结论：计算出的统计数据或变量之间观察到的关系可以解释为真实陈述，或者样本数据中观察到的结果仅仅是由于偶然。这是通过确定一些样本统计量来完成的，如果原始假设为真，则将显示某些特征，但如果原始假设为假，则不会。相关样本统计数据似乎越显示出在原假设下预期的特征，则原假设正确的统计证据越强。同样，在原假设下，样本统计数据似乎表现出较少的预期特征，则原假设正确的统计证据越弱。

样本统计量在零值下展现出预期特征的数量是一个程度的问题，但是为了得出是否接受或拒绝零值假设的结论，必须有一些任意的界限。这样，选择截止值。如果样本统计量在临界值之内或在该临界值的一侧，则认为它符合零假设下预期的特征，因此对于给定的临界值（例如，在5％的alpha值），结果可以被认为具有统计学意义水平）。如果相关样本统计量位于临界值的另一侧，则认为该统计值不符合零假设下的预期特征，因此，对于给定的临界值，该结果在统计上并不重要。

— 特奈尔
source

但是实际上应该事先确定应该应用结果的独特人群的频率。通常会提出一个论点，要求将结果应用到所研究的确切人群之外，这是一个独特的样本。在许多情况下，这些主题的独特性/重要的事情有多少未知。制造质量控制可能是一个例外，但是重要性测试的用途要广泛得多。我只想强调程序的局限性，这是我自己的教育所忽略的。

— Flask 2013年

@Flask很好。我已经编辑了答案，以使其更笼统。

— tjnel