非参数测试究竟能完成什么工作?您将如何处理结果?


22

我觉得这可能是在其他地方提出来的,但并不是我需要的基本描述类型。我知道非参数依赖于中位数而不是平均值进行比较。我也相信它依赖于“自由度”(?)而不是标准偏差。如果我错了,请纠正我。

我已经做了相当不错的研究,或者我想尝试去理解这个概念,背后的工作原理,测试结果的真正含义,以及/或者甚至对测试结果做些什么。但是,似乎没人敢涉足这一领域。

为了简单起见,让我们继续进行曼恩·惠特尼(Mann-Whitney)U检验,我注意到它很受欢迎(并且似乎也被滥用和过度使用,以迫使一个人的“方形模型陷入一个圆孔”)。如果您也想随意描述其他测试,尽管我一旦理解了其中的一个,就可以以类似的方式了解其他t检验,从而了解其他测试。

假设我对我的数据进行了非参数测试,然后得到了以下结果:

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference ≠ 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156  

我熟悉其他方法,但是这里有什么不同?我们是否应该希望p值小于0.05?“曼恩·惠特尼统计”是什么意思?有什么用吗?这里的信息是否只是验证或不验证是否应该使用我拥有的特定数据源?

我在回归和基础知识方面有相当丰富的经验,但对这种“特殊”非参数化的东西很好奇-我知道这会有它自己的缺点。

试想一下,我是五年级生,看看你能不能对我解释一下。


4
是的,我读过很多遍了。有时,维基百科使用的术语可能会变得不知所措,尽管它具有准确的描述-对于开始尝试学习该领域的人来说,它不一定具有清晰的描述。不确定谁投票赞成,但我合理地希望几乎每个人都可以理解的基本解释。是的,我努力寻找不信的人。无需立即对我投反对票并把我链接到维基百科。有人注意到有些老师比别人更好吗?我正在为坚持的概念寻找优秀的“老师”。
塔尔(Taal)

1
然后继续阅读良好的基本非参数统计文本,例如Sprent和Smeeton,Hollander和Wolfe,Conover。或找到包含曼恩·惠特尼(Mann-Whitney)的介绍性文字。
Nick Cox

1
从看您的问题和您最近仅使用互联网提出的另一个问题对您来说效果不佳,因为您显然很困惑。这就是为什么@Peter Flom和我推荐书籍。我没有其他建议。我还建议-真诚地并为了您的最大利益-尝试编写更加简洁,少说话的问题。你的格格不入的风格无助于阐明你的问题。
Nick Cox

1
老实说,单是互联网实际上比任何一本书或一堂课都做得好-涉及任何主题。对于写“聊天”问题,我深表歉意。
塔尔(Taal)

3
不,它似乎不如一本好书。用斯蒂芬·森(Stephen Senn)来解释,奇怪的是,统计学是人们乍一看要求人们理解的唯一科学。
Frank Harrell

Answers:


41

我知道非参数依赖于中位数而不是均值

在这种意义上,几乎没有任何非参数检验实际上“依赖”中位数。我只能想到一对...我希望您甚至可能听说过的唯一一个就是符号测试。

比较...某物。

如果他们依靠中位数,大概是比较中位数。但是,尽管有许多资料试图告诉您,但像有符号秩检验或Wilcoxon-Mann-Whitney或Kruskal-Wallis之类的检验根本不是对中位数的检验。如果您做出其他一些假设,则可以将Wilcoxon-Mann-Whitney和Kruskal-Wallis视为中位数的检验,但是在相同的假设下(只要存在分布均值),您同样可以将它们视为均值检验。

与Signed Rank检验相关的实际位置估计值是样本内成对平均值的中位数,Wilcoxon-Mann-Whitney的平均值(并暗示,在Kruskal-Wallis中)是样本间成对差异的中值。

我也相信它依赖于“自由度?” 而不是标准偏差。如果我错了,请纠正我。

大多数非参数测试没有“自由度”,尽管许多分布随样本大小而变化,并且在表随样本大小变化的意义上,您可能认为这有点像自由度。样本当然确实保留了它们的属性,并且在那个意义上具有n个自由度,但是测试统计量的分布中的自由度通常与我们无关。您可能会遇到一些更像自由度的事-例如,您肯定会提出一个论点,即Kruskal-Wallis确实具有与卡方基本相同的意义上的自由度,但通常不会关注这样(例如,如果有人在谈论克鲁斯瓦尔-沃利斯的自由度,他们几乎总是指df

关于自由度的很好的讨论可以在这里找到/

我已经进行了相当不错的研究,或者我想尝试理解该概念,其背后的工作原理,测试结果的真正含义,以及/或者甚至对测试结果进行处理。但是似乎没人敢涉足这一领域。

我不确定您的意思。

我可以建议一些书,例如Conover的《实用非参数统计》,如果可以的话,可以推荐Neave和Worthington的书(无分布测试),但是还有很多其他书-例如Marascuilo和McSweeney,Hollander和Wolfe或Daniel的书。我建议您阅读至少3或4个最能说明您问题的书籍,最好是那些解释尽可能不同的书籍(这意味着至少要阅读6或7本书中的一小部分才能找到适合自己的3本书)。

为了简单起见,让我们坚持使用曼恩·惠特尼(Mann Whitney U)测试,我注意到它很受欢迎

就是这样,这让我感到困惑,因为您的陈述“似乎没有人冒险进入该区域”-许多使用这些测试的人确实“冒险进入”您所谈论的区域。

-并且似乎也被滥用和过度使用

我想说的是,如果有任何东西(包括Wilcoxon-Mann-Whitney),非参数测试通常会被利用不足 -尤其是置换/随机化测试,尽管我不必质疑它们经常被滥用(但是参数测试也是如此)更多)。

假设我对我的数据进行了非参数测试,然后得到了以下结果:

[片段]

我熟悉其他方法,但是这里有什么不同?

您还说其他哪些方法?您希望我将此与之进行比较吗?

编辑:您稍后提到回归;假设您熟悉两个样本的t检验(因为这确实是回归的一种特殊情况)。

在普通的两样本t检验的假设下,零假设是两个总体是相同的,而另一种情况是分布之一发生了变化。如果您查看下面的Wilcoxon-Mann-Whitney的两组假设中的第一个,则那里要测试的基本事物几乎是相同的。只是t检验是基于假设样本来自相同的正态分布(除了可能的位置偏移)。如果原假设为真,并且伴随的假设为真,则检验统计量具有t分布。如果替代假设为真,则检验统计量更有可能采用看起来与零假设不一致但与替代假设一致的值-我们着重研究最不寻常的

Wilcoxon-Mann-Whitney的情况非常相似,但是它测量与零值的偏差有些不同。实际上,当t检验的假设为true *时,它几乎与最佳检验(t检验)一样好。

*(实际上从来没有,尽管听起来并不像问题那么严重)

在null和替代条件下的wmw

确实,可以将Wilcoxon-Mann-Whitney视为对数据等级进行的“ t检验”,尽管它没有t分布。统计信息是根据数据等级计算的两个样本t统计量的单调函数,因此它在样本空间上引起相同的排序**(即对等级进行“ t检验”-适当执行-会产生与Wilcoxon-Mann-Whitney相同的p值),因此它会拒绝完全相同的情况。

**(严格来说,是部分订购,但让我们撇开它)

[您认为仅使用等级会丢弃大量信息,但是当从具有相同方差的正常总体中提取数据时,几乎所有有关位置偏移的信息都在等级模式中。实际数据值(取决于其等级)为此添加的信息很少。如果您的尾巴比平时重,那么不久前Wilcoxon-Mann-Whitney检验将具有更好的功效,并保持其名义上的显着性水平,因此,排名上方的“额外”信息最终不仅会变得无用,而且在某些情况下意识,误导。但是,近对称的重尾现象很少见。在实践中经常看到的是偏度。]

基本思想非常相似,p值具有相同的解释(如果原假设为真,则结果的概率为或更极端)-如果您做出以下解释,则直接解释为位置偏移必要的假设(请参阅本文末尾有关假设的讨论)。

如果我进行了与上述用于t检验的图相同的模拟,则图看起来会非常相似-x和y轴上的比例看起来会有所不同,但是基本外观会相似。

我们是否应该希望p值小于0.05?

您不应该在那里“想要”任何东西。这样做的目的是找出样本(在位置上)是否比偶然解释的更多,而不是“希望”特定的结果。

如果我说“你可以去看看颜色Raj的车是什么吗?”,如果我想它的一个公正的评估,我不希望你是想“伙计,我真的,真的希望它是蓝色!它只是要蓝色”。最好只是看看情况如何,而不是参加一些“我需要它成为某种东西”。

如果您选择的显着性水平为0.05,则当p值低于0.05时,您将拒绝原假设。但是,如果您有足够大的样本量来几乎总是检测到相关的效应量,那么拒绝失败至少同样有趣,因为这表明存在的任何差异都很小。

“曼·惠特利”数字是什么意思?

Mann-Whitney 统计量

与零假设为真时(见上图)可以取的值的分布相比,它仅是有意义的(这取决于任何特定程序可以使用几个特定定义中的哪个)。

有什么用吗?

通常,您并不关心这样的确切值,而是它位于零分布中(无论它是或多或少代表零假设成立时应该看到的典型值,还是更极端)

P(X<Y)

这里的数据是否只是验证或不验证是否应使用我拥有的特定数据源?

该测试没有说明“我应该或不应该使用的特定数据源”。

请参阅下面有关查看WMW假设的两种方式的讨论。

我在回归和基础知识方面有相当丰富的经验,但对这种“特殊”非参数化的东西非常好奇

对于非参数检验,没有什么特别的要求(我想说“标准”检验在许多方面都比典型的参数检验更为基础),只要您真正了解假设检验即可。

但是,这可能是另一个问题的话题。


有两种主要方法可以查看Wilcoxon-Mann-Whitney假设检验。

i)一个是说“我对位置偏移很感兴趣-也就是说,在原假设下,两个总体具有相同(连续)的分布,而另一种选择是相对于该位置“上移”或“下移”其他”

如果做出此假设,Wilcoxon-Mann-Whitney的效果会很好(您的选择只是位置偏移)

在这种情况下,Wilcoxon-Mann-Whitney实际上是对中位数的检验……但同样地,它是对均值的检验,或者实际上是对任何其他位置等值统计量的检验(例如,第90个百分位数或修整后的均值,或任意数量的其他事物),因为它们都受到位置偏移的相同影响。

这样做的好处是,它很容易解释-而且很容易为该位置偏移生成一个置信区间。

位置偏移

但是,Wilcoxon-Mann-Whitney检验对除位置偏移以外的其他种类的差异敏感。

1个21个2

P(X <Y)从1/2偏移


我绘制了近似为零的分布(在新的最上面的图中红色表示),好像它是连续的……但是实际分布是​​离散的。这样图片就不会那么混乱了。
Glen_b-恢复莫妮卡

3
+1好答案。我知道,Wilcoxon-Mann-Whitney检验是最好,最易理解的解释之一。谢谢。
COOLSerdash

“在这种情况下,Wilcoxon-Mann-Whitney实际上是对中位数的检验……但同样是对均值的检验”。但是,某些分布没有均值,而其中位数是明确定义的(例如Cauchy)。
caracal 2014年

@caracal虽然是正确的(这是我在这里多次提到的观点),但是如果某人正在测试人口均值的均值,那么大概他们已经假设他们的人口均值是有限的。如果没有,他们在选择测试之前就存在问题。假设存在相等(因而有限)总体均值的假设,在通常用来进行中位数检验(移位替代)的相同假设下,WMW也是均值检验。
Glen_b-恢复莫妮卡

17

假设您和我都在训练田径队。我们的运动员来自同一所学校,年龄相同,性别相同(即,他们来自相同的人口),但是我声称发现了一种革命性的新训练系统,该系统将使我的团队成员的奔跑速度比你的。我怎样才能说服它确实有效?

我们有比赛。

然后,我坐下来计算团队成员的平均时间以及您团队成员的平均时间。如果我的运动员的平均时间不仅快于您的平均时间,而且与我们的成绩的“散布”或标准差相比,差异也很大,我将要求胜利。


Ť


您抱怨说:“但是马特,这不是很公平。我们的球队非常相似,但是由于纯粹的机会,您最终获得了该地区最快的选手。他与每个人都不在同一个联赛中否则,他实际上是一个自然的怪胎,他在第二快的完成者之前3分钟就完成了比赛,这大大减少了您的平均时间,但其他竞争对手的表现却很不一样,请看一下完成顺序。确实有效,较早的完成者应该主要来自您的团队,但是如果没有,那么完成顺序应该是相当随机的。这不会给您的超级巨星造成不必要的负担!”


Ť

p值在零假设下均匀分布在[0,1]上,并且在存在效果的情况下趋向于0。您将像对参数测试的结果一样报告和解释它们。

ŤŤŤ


您实际上完全按照我的方式回答了我的问题,我的意思是完全按照我希望其回答的方式回答。格伦在数学方面也更有优势,而这两个回答的结合对我来说是个很大的机会。我不能从他身上得到回报-我的意思是...尽管您的回答很明确,他仍在画图。我觉得您过去曾从事过某种教学工作。我知道这里的回答可能有些笼统,但我知道我不必买书并进行深入研究就可以开始在某种程度上实际应用非参数了
-Taal

Ť

具有讽刺意味的是,我可能根本不会使用它,这使我感到困扰,因为我无法直接得到它的答案。Glen的答案远远超出了我的预期和最初的想法-我觉得我无法形容的最佳答案,因为任何描述都无法证明。就像告诉别人蓝色是什么样子。如果您读过任何胡扯的东西,听起来您可能有类似的味道……
Taal


6

您要求纠正错误。以下标题下有一些评论,以补充@Peter Flom的积极建议。

  • “非参数依赖于中位数而不是均值”:通常在实践中,但这不是一个定义。几种非参数检验(例如卡方)与中位数无关。

  • 依靠自由度而不是标准偏差;这很困惑。自由度的想法绝不是标准偏差的替代;自由度作为一个概念适用于所有统计数据。

  • “我应该使用或不应该使用的特定数据源”:这个问题与您应用的显着性测试无关,后者与数据子集之间的差异有关,用中位数之间的差异表示。


相信您对我的要求“到目前为止,改正错误”是迄今为止最好的回应。我想我需要驳斥或通过消除过程来学习一些零假设。您的回复为我提供了我了解的新信息-我对这个主题的理解仍然有一些大漏洞,但是我不能指望完美。也许这些漏洞比我在编写此问题时最初预期的要大,并且无论我提出的问题多么“有趣”,stackexchange都不够。
塔尔(Taal)

4

您从此处的p值“想要”与其他任何测试相同的东西。

U统计量是计算的结果,就像t统计量,优势比,F统计量或您拥有的统计量一样。该公式可以找到很多地方。这不是很直观,但是其他测试统计信息也不会一样,直到您习惯了它们(由于我们一直看到它们,所以我们将2的值视为在有效范围内)。

块文本中的其余输出应保持清晰。

对于非参数测试的更一般性介绍,我回声@NickCox ....获得一本好书。非参数只是意味着“没有参数”。有许多用于各种目的的非参数测试和统计信息。


是的,理想情况下,好的书会有所帮助。但是,对于今天的资源(如stackexchange),维基百科(有时),youtube市场竞争(您知道有人获得4000美元的观看次数,您知道吗?)以及其他各种资源,这似乎是不必要的。通常,就像我的学习风格一样,我在简单的书本学习上也同样会失败。
塔尔(Taal)

1
我感谢您的帖子,但是实际上它已经重申了我所知道或不幸的大部分内容。似乎有一种模式,几乎所有我得到的解释都止于这一特定点。也许这一点太复杂了,无法解释或需要付出太多努力-我不确定。无论哪种方式,这都是我通常使用的每种信息来源都经历的一种模式-具有讽刺意味的是,它重申了每个人的账单。也许我没有意识到答案是如此复杂。再一次,我在SE上看到了一些激烈的回答。
塔尔(Taal)

2
首先,您要求我们进行简化,然后抱怨我们的答案很简单!如果您想了解U(或其他任何东西)的公式,请查看它。如果您想要简单的东西,那么不要要求复杂!Wikipedia条目是一个出色的详细条目,其中包含所有详细信息。你不明白 所以。你想要什么?
彼得·弗洛姆

1
我想介于两者之间。坦率地说,我并不是交流能力最好的人,我可以理解您的无奈,呵呵。我实际上很清楚这是我的一个特征。老实说,我想我必须考虑一下我真正想要的东西-因为这几乎就像是我试图将问题轻推到与我不知道或以前不知道的区域重叠的地方关于。很难问一些您通常不了解的事情。我只想回到这个我想。
塔尔(Taal)

1

作为对最近关闭的问题的答复,这也解决了上述问题。下面是布拉德利(Bradley)经典的《无分布统计检验》(1968,p。15–16)的引文,尽管时间有点长,但我认为这是一个非常清楚的解释。

术语“非参数”和“无分布”不是同义词,两个术语都不能完全令人满意地描述它们所要引用的统计类别。……大致而言,非参数检验是不对参数值进行任何假设的检验在统计密度函数中,无分布检验是不对抽样人口的确切形式进行任何假设的检验。定义不是互相排斥的,测试可以是无分布的,也可以是参数化的。…为了完全了解无分布的含义,有必要区分三种分布:(a)抽样人口;(b)测试实际使用的观察特性;(c)检验统计量。测试“免费”的分布是抽样人群(a)的分布。他们享受的自由通常是相对的。...但是假设从来没有如此详尽地暗示一个人口的分布完全被指定。...原因...非常简单:在[非参数]检验中未使用幅度,变量的任何其他紧密关联的总体属性也是如此。代替 变量的任何其他紧密关联的总体属性也是如此。代替 变量的任何其他紧密关联的总体属性也是如此。代替样品的-连接的charachteristics获得观测 ...提供通过检验统计中使用的informatikon ...。因此,虽然这两种参数和非参数检验要求该形式F 分布,与观测相关联,充分已知的,这些知识,在参数的情况下,通常不会出现这种情况,因此必须根据近似或不完整的信息来“假定”或推断出所需的幅度分布。另一方面,在非参数情况下,观察特征的分布通常从先验考虑就可以精确地知道,因此不必“假定”。因此,差异不是要求之一,而是要求的条件和确定性将满足要求的条件。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.