将不重要的结果解释为“趋势”


16

最近,两个不同的同事对条件之间的差异使用了一种论点,这对我来说似乎是不正确的。这两个同事都使用统计信息,但他们不是统计学家。我是统计学的新手。

在这两种情况下,我都认为,由于实验中两个条件之间没有显着差异,因此就操纵对这些组做出一般性主张是不正确的。请注意,“提出一般性主张”的含义类似于写:“ A组比B组更频繁地使用X”。

我的同事反驳说:“即使没有显着差异,趋势仍然存在”和“即使没有显着差异,也仍然存在差异”。对我来说,这两种声音听起来都是模棱两可的,也就是说,它们将“差异”的含义从“可能是除偶然性以外的结果(即统计意义)的差异”更改为“任何非组之间的测量差异为零”。

我的同事的回答正确吗?我没有接受他们,因为他们比我高。


我发现这些文章很有帮助仍然不显着轻微Signficant
user20637

Answers:


26

这是一个很好的问题; 答案很大程度上取决于上下文。

通常,我会说您是对的:做出无条件的一般性声明,例如“ A组比B组使用X的频率更高”,这具有误导性。像这样说会更好

在我们的实验组A中,使用X的人数比在B组中使用的次数多,但是我们不确定这在普通人群中会如何发挥作用

要么

尽管在我们的实验中,A组比B组使用X的频率高出13%,但我们对一般人群差异的估计尚不清楚:从A组使用X的频率比B组 5%到A组使用X 21%的合理值范围比B组更多

要么

A组比B组更频繁地使用X 13%,但差异无统计学意义(95%CI -5%至21%; p = 0.75)

另一方面:您的同事说对了,在这个特定的实验中,A组比B组更经常使用X。但是,人们很少关心特定实验中的参与者;他们想知道您的结果将如何推广到更大的人群,在这种情况下,通常的答案是您无法确定地说随机选择的A组比随机选择的B组使用X的频率更高或更小。

如果您今天需要在没有其他任何信息或成本差异等情况下,选择使用处理A还是使用处理B来增加X的使用量,那么选择A是您的最佳选择。但是,如果您希望自己做出正确的选择感到自在,则需要更多信息。

请注意,您应该说“有他们的X使用A组与B组之间无差异”,或“A组与B组使用X相同的量”。在您的实验中(无论是A的使用量多X 13%)还是在普通人群中,都是如此。在大多数现实世界中,您知道A与B之间确实存在某种影响(无论有多微小);你只是不知道它往哪个方向走。


5
美丽的回应,本!我想知道您是否可以为了清晰起见修改第二个示例语句,以反映第一个示例语句的要点:“尽管在我们的实验中,A组比B组使用X的频率高出13%, 但X组在总体上的使用差异人口尚不清楚:差异的合理范围是,从A使用X的频率比B组 5%,到A使用X的频率比B组高X 21%。
Isabella Ghement

3
感谢,部分并入(试图在简洁/明晰和准确性之间取得平衡...)
Ben Bolker

8
+1我认为许多人没有意识到,在没有统计证据的情况下,所观察到的差异很可能与人口情况恰恰相反!
戴夫

@戴夫:即使存在“统计证据”(统计上显着的p值?),“观察到的差异也很可能与人口的状况相反”
boscovich

@boscovich当然,当我们进行统计时,我的意思是绝对的,但我认为这是微不足道的p值,这意味着您真的不知道总体情况。至少在具有显着的p值的情况下,您已经达到一些确定的证据阈值,表明您了解某些知识。但是绝对可以肯定的是,如果错误地确定了方向,则可以获得很大的p值。该错误应不时发生。
戴夫

3

这是一个很难回答的问题!

5 p

假设我们有一个零假设(例如,组和对变量显示相同的均值,或者变量的总体均值小于5)。您可以将原假设视为“无趋势”假设。我们收集一些数据来检查我们是否可以反驳(零假设永远不会“被证明为真”)。通过我们的样本,我们进行了一些统计,最终得到了。简而言之,值是纯机会将产生与我们获得的结果相同(或更多)的极端结果的概率,当然,假设为真(即没有趋势)。H0一种Xÿ H0ppH0

如果我们得到一个“低”的值,我们说机会很少像结果那样产生结果,因此我们拒绝了(有统计意义的证据表明可能为假)。如果我们获得“高”值,则结果更有可能是运气的结果,而不是实际趋势。我们并不是说是真的,而是应该进行进一步的研究以拒绝它。pH0H0pH0

警告:一个的-值并不意味着有一个在没有任何其它的趋势,而是这样的机会产生结果的几率的时间,这听起来很相似,但完全不同的事情。例如,如果我声称有些荒谬的事情,例如“我可以预测掷骰子的结果会在一个小时之前发生,”我们将进行实验以检查零假设 “我不能做这样的事情”并得到值,尽管有统计学意义,您仍然有充分的理由不相信我。p232323H0:=0.5 p-

因此,考虑到这些想法,让我们回到您的主要问题。假设我们要检查是否增加药物的剂量是否对患者存活某种疾病的可能性有影响。我们进行一个实验,拟合一个逻辑回归模型(考虑了许多其他变量),并检查与“剂量”变量相关的系数的显着性(称为系数,我们将测试零假设或,在英语中,“药物无效”或“药物无效或阴性”。XβH0 β=0β0

实验结果抛出一个正beta,但测试保持在0.79。我们可以说有趋势吗?好吧,那真的会减少“趋势”的含义。如果我们接受这种事情,即使进行最荒谬的测试,我们所做的所有实验中基本上有一半会显示出“趋势”。β=0

因此,总而言之,我认为宣称我们的药物会有所作为是不诚实的。相反,我们应该说的是,除非进行进一步的测试,否则我们的药物不应投入生产。确实,我要说的是,即使达到统计意义,我们仍应谨慎对待我们提出的主张。如果机会产生这些结果的,您会服用该药吗?这就是为什么研究复制和同行评审至关重要的原因。4

我希望这个过于冗长的解释可以帮助您整理主意。总结是,您绝对正确!无论是用于研究,商业还是其他目的,我们都不应以无足轻重的证据来支持我们的报告。如果您确实认为有趋势,但是没有达到统计意义,那么请使用更多数据重复该实验!


1
+1指出任何显着性阈值是任意的(并且暗示无法从样本结果中推断出对总体的绝对主张-您得到的都是更好的概率)。
彼得-恢复莫妮卡

0

显着影响只是意味着您测量了一个不太可能的异常(如果零假设,没有影响则为真,则不太可能)。结果,它必须以很高的概率受到怀疑(尽管该概率不等于p值,并且还取决于先前的信念)。

根据实验的质量,您可以测量相同的效应大小,但这可能不是异常(如果零假设为真,则不是不可能的结果)。

当您观察到一个效果但并不重要时,实际上它仍然可以存在(效果),但它并不重要(测量结果并不表明应该以高概率怀疑/拒绝原假设)。这意味着您应该改进实验,收集更多数据,以便更加确定。

因此,您应该选择以下四个类别,而不是二分法效应和无效应。

四个类别

图片来自https://en.wikipedia.org/wiki/Equivalence_test,解释了两面t检验程序(TOST)

您似乎属于D类,测试尚无定论。您的同事说有效果可能是错误的。但是,说没有效果是错误的!


p

@David,我完全同意您的观点,即p值更准确地是“我们以零假设为真的条件下出错的概率”(或看到这种极端结果的概率)的度量,而它不是直接表达“零假设错误的可能性”。但是,我觉得p值并不意味着要在这种“官方”意义上使用。p值用来表示疑问的零假设,以表达结果显示的异常和异常情况应使我们怀疑空....
塞克图斯经验派

....在您的情况下,当您通过提供一种罕见的情况(就像品尝茶的女士)来挑战无效效果(挑战人们无法预测硬币的想法)时,我们的确应该怀疑无效假设。在实践中,我们需要为此设置一个适当的p值(因为确实有人可能只是偶然地挑战零值),而我不会使用1%的水平。怀疑零值的高概率不应该与p值一一对应(因为该概率更多是贝叶斯概念)。
Sextus Empiricus

我改编了文字,以消除这种误解。
Sextus Empiricus

0

听起来好像他们在争论p值与“趋势”的定义。

如果在运行图上绘制数据,则可能会看到趋势…一系列运行点,这些趋势点显示趋势随时间上升或下降。

但是,当您对其进行统计时。.p值表明它并不重要。

对于p值而言,显示不大的意义,但对于他们而言,要在一系列数据中看到趋势/运行……那将是一个非常小的趋势。

所以,如果真是这样,我会回过头再看p值。IE:是的,数据中存在趋势/运行。但是它是如此微小且微不足道,因此统计数据表明它不值得进一步追求分析。

微不足道的趋势可能是由于研究中的某种偏见而引起的。也许是非常微小的。在实验中可能只是一次发生而恰好产生了轻微的趋势。

如果我是该小组的经理,我会告诉他们不要浪费时间和金钱来挖掘微不足道的趋势,而要寻找更重要的趋势。


0

听起来在这种情况下,他们的主张没有什么道理,只是滥用统计数据来得出他们已有的结论。但是有时候可以不必严格限制p-val截止值。自费舍尔,内曼和皮尔森首次奠定统计检验的基础以来,这种争论(如何使用统计显着性和pval临界值)一直在进行着激烈的辩论。

假设您正在构建模型,并且正在确定包含哪些变量。您收集了一些数据以对潜在变量进行一些初步调查。现在,业务团队确实对这个变量感兴趣,但是您的初步调查显示该变量在统计上并不重要。但是,变量的“方向”与业务团队的预期相符,尽管它没有达到重要意义的阈值,但很接近。也许有人怀疑它与结果呈正相关,并且您得到的β系数为正,但pval只是比.05临界值高一点。

在这种情况下,您可以继续进行添加。这是一种非正式的贝叶斯统计方法-先前人们强烈相信它是一个有用的变量,并且对该变量的初步调查显示了该方向的一些证据(但不是统计上显着的证据!),因此您可以从中受益。并将其保留在模型中 也许有了更多的数据,就可以更明显地看出它与目标结果之间的关系。

另一个示例可能是在构建新模型并查看先前模型中使用的变量的情况下–您可能会继续包含边际变量(处于重要时刻的变量)以保持模型的某些连续性模拟。

基本上,根据您在做什么,有理由对这类事情越来越严格。

另一方面,请记住,统计意义不必表示实际意义也很重要!请记住,所有这些的核心是样本量。收集足够的数据,估计的标准误差将缩小为0。这将产生任何类型的差异,无论多么小,“具有统计意义的”,即使该差异在现实世界中可能没有任何意义。例如,假设某枚硬币落在头上的概率为.500000000000001。这意味着从理论上讲,您可以设计一个实验来得出该硬币不公平的结论,但是出于所有意图和目的,该硬币都可以被视为公平硬币。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.