为什么参数统计比非参数统计更受青睐?


60

有人可以向我解释为什么有人会选择非参数统计方法来进行假设检验或回归分析吗?

在我看来,这就像漂流并选择不防水的手表一样,因为您可能不会弄湿它。为什么不使用在每种情况下都可以使用的工具?


21
将归纳偏差引入统计推断过程中。那是一种奇特的说法:如果您知道某些事情,请提供提示。该提示可以采取诸如提供可能性或参数的先验分布的功能形式的形式。如果您的提示是好的,则结果要比没有提示的要好;如果不好,则结果会更糟。
Cagdas Ozgenc 2015年

6
不必要。基本上,您正在寻找非常大的甜点上的东西。如果有人告诉您您要寻找的东西仅限于某个区域,那么您发现它的机会就会增加。但是,如果他们误导了您错误的信息,那么无论您在该区域中进行多少搜索,都不会找到它。
Cagdas Ozgenc

17
作为木工,我喜欢最后的类比。房屋和家具经精心建造和最后使用专用工具建造。通用工具非常适合房主和需要快速完成工作的专业人员,或者对于使用粗略或不合适的工具不会造成任何人关心的质量差异的专业人士而言。但是,工匠通过使用正确的工具来达到最佳效果,而实际上,如果没有它,有些事情是无法完成的。例如,没人能用通用手锯做得很好。
ub

3
无论您是用铁锹还是茶匙挖沟,最终都会沟渠。只是如果您使用了茶匙,您的年龄也会变大。
2015年

Answers:


25

参数测试和非参数测试实际上很少具有相同的null。假设前两个时刻存在,参数检验将测试分布的均值。Wilcoxon秩和检验不假设任何时刻,而是检验分布是否相等。它的隐含参数是分布的怪异函数,一个样本的观测值低于另一个样本的观测值的概率。您可以谈论在完全指定的完全相同的零分布下的两个检验之间的比较...,但是您必须认识到这两个检验正在检验不同的假设。t

参数测试带来的信息及其假设有助于提高测试的功能。当然,这些信息最好是正确的,但是如今,人类知识的领域已经很少,甚至根本没有此类初步信息。明确指出“我不想承担任何事情”的一个有趣例外是在法庭上,非参数方法继续广为流行-这对应用程序来说是非常有意义的。双关语可能是一个很好的理由,菲利普·古德(Phillip Good)撰写了有关非参数统计法庭统计的好书。

在某些测试情况下,您将无法访问非参数测试所需的微数据。假设要求您比较两组人,以评估一组人是否比另一组更肥胖。在理想的世界中,您将获得每个人的身高和体重测量值,并且可以形成按身高分层的排列测试。在一个不太理想(即真实)的世界中,每组中可能只有平均身高和平均体重(或者可能是样本均值上方这些特征的某些范围或方差)。然后最好的办法是计算每个组的平均BMI并比较(如果您只有)。或假设身高和体重为双变量正态(如果您具有均值和方差)(如果样本中未提供相关数据,则可能需要从某些外部数据中获取相关性),


3
我知道在测试的情况下,您没有相同的null,尽管我不确定说一个null是否比另一个null更有意义。但是预测情况如何?完全不同的故事,仍然是参数与非参数的困境。
2015年

22

正如其他人所写:如果满足先决条件,则参数测试将比非参数测试更强大。

用您的手表比喻,不防水的手表除非被弄湿,否则会更加准确。例如,无论哪种方式,您的防水手表都可能关闭一小时,而不防水的手表则是准确的……并且您漂流后需要乘公共汽车。在这种情况下,最好将不防水的手表随身携带,并确保它不会弄湿。


优点:非参数方法并不总是那么容易。是的,替代at测试的置换测试很简单。但是,对于具有多个双向交互作用和嵌套随机效应的混合线性模型,非参数替代方法要比简单调用困难得多nlme()。我已经使用置换测试做到了这一点,根据我的经验,即使参数模型的残差非常不正常,参数测试和置换测试的p值也一直很接近。参数测试通常具有惊人的弹性,可以抵御其前提条件的偏离。


似乎流行的观点是,当满足参数方法的假设时,参数方法会更强大。但是,如果是这样的话,那么为什么我们会有p值来评估两种方法的结果呢?我的意思是,如果参数检验拒绝概率至少为99%的零假设,那比非参数检验拒绝概率为99%的零假设更好呢?每种情况下0.99的概率是否不同?那是没有道理的。
en1

1
零假设在参数检验与非参数检验之间是不同的。具体来说,参数测试的零假设包含关于测试统计量分布的特定参数假设(对于两个测试,通常也将以不同的方式计算该假设),这就是为什么它被称为“参数”!因此,这两个p值具有相同的名称,但是是根据不同的检验统计量计算得出的,这些检验统计量在不同的原假设下具有不同的分布。
S. Kolassa-恢复莫妮卡


3
@StephanKolassa,我实际上开始为您的回答写评论,并被带走了:)
StasK 2015年

12

尽管我同意在许多情况下使用非参数技术是有利的,但在某些情况下参数方法更有用。

让我们集中讨论“两样本t检验与Wilcoxon的秩和检验”(否则,我们必须写整本书)。

  1. 在2-3人的小组中,只有t检验理论上可以将p值控制在5%以下。在生物学和化学领域,像这样的小组规模并不少见。当然,在这种情况下使用t检验很困难。但是也许总比没有好。(这一点与在理想情况下,t检验比Wilcoxon检验具有更大的影响力有关)。
  2. 由于中央极限定理,在庞大的小组规模中,t检验也可以视为非参数检验。
  3. t检验的结果与均值差的学生置信区间一致。
  4. 如果各组之间的方差差异很大,则Welch的t检验版本会尝试将其考虑在内,而如果要比较均值,Wilcoxon的秩和检验可能会严重失败(例如,第一类错误概率与名义水平有很大差异) )。

2
我不同意1.仅仅使用一个过程,因为它可以让您做出决定并不是一个很好的理由,尤其是当您没有理由期望该过程有效时。如果您几乎没有数据,则只需做出判断即可,不要假装它是基于严格的。
dsaxton 2015年

5
我同意你的看法。显然,即使在排名最高的期刊上发表论文,结果也往往无法再现,这是原因之一。但是,如果预算仅允许很小的样本量,您作为研究者有什么选择?
Michael M

1
关于第4条,以及当组之间存在不相等的方差时应用Wilcoxon-Mann-Whitney的问题,有一些非参数方法允许异方差性:例如,我似乎想起了Cliff检验或Brunner-Munzel检验。(我认为我们在此站点上没有关于它们的很多信息。)
Silverfish,2015年

@Silverfish:我经常使用Brunner的方法,我认为您是对的。但是我怀疑他们在做出强有力的分布假设时是否真的在比较均值。
Michael M

1
@MichaelM是的-我想这又回到了具有不同假设的参数方法和非参数方法的问题。
银鱼

9

在假设检验中,非参数检验通常会测试不同的假设,这就是为什么不能总是仅将非参数检验替换为参数检验的原因之一。

更一般地,参数过程提供了一种将结构强加于其他非结构化问题上的方法。这非常有用,可以看作是一种简化的启发式方法,而不是认为该模型是真实的。例如,使用一些回归函数(即使假设存在这样的函数是一种参数限制),基于预测变量预测连续响应的问题。如果我们完全不假设X ˚F ˚F ˚F X = Σ p Ĵ = 1个 β Ĵ X Ĵyxff则我们尚不清楚如何估算此功能。我们需要搜索的可能答案集太大了。但是,如果我们将可能答案的空间限制在(例如)线性函数,则实际上可以开始取得进展。我们不需要相信该模型完全成立,我们只是在进行近似,因为需要得出一些答案,但并不完美。f(x)=j=1pβjxj


是的,这增加了模型偏差。这说明研究人员报告的p值是什么?
Cagdas Ozgenc

@dsaxton对于测试不同的假设,您说的是正确的,但人们仍然以相同的方式解释它们。然后还有回归,您在非参数分析和参数分析之间获得的见解几乎是相同的。
en1

@ cagdas-ozgenc它告诉您p值是模型的条件。但目前还不清楚情况会如何...
conjugateprior

3
+1指出的是,我们绝对没有没有回归估计任何有价值的东西的机会,一些关于回归函数的假设。
2015年

9

半参数模型具有许多优点。他们提供了诸如Wilcoxon检验之类的测试作为特例,但是允许估计效应比,分位数,均值和超出概率。它们扩展到纵向数据和审查数据。它们在Y空间中很健壮,并且除了估计方式外,变换不变。有关详细的示例/案例研究,请参见http://biostat.mc.vanderbilt.edu/rms链接至课程讲义。

tYYXX1X2。示例包括比例赔率模型(特殊情况:Wilcoxon和Kruskal-Wallis)和比例风险模型(特殊情况:对数秩和分层对数秩检验)。

Y


1
我一直在为此挣扎一点。您认为t检验是半参数还是非参数?一方面,我一直认为半参数的“误解”如下:对数据采用“工作”概率模型,不管分布是否正确,都估计该分布中的参数,并将误差估计改进为考虑不确定性。(因此,针对高斯得分方程解的基于三明治的误差将是半参数T检验)。但是,与Cox模型一样,半参数几乎总是涉及对某些事物进行局部化/条件化。
AdamO

我将在答案中添加更多描述以解决该问题。
Frank Harrell

6

在提供的大量答案中,我还要提请注意贝叶斯统计。仅靠可能性无法解决某些问题。惯常论者使用反事实推理,其中“概率”是指替代宇宙,而替代宇宙框架对于推断个人的状态(例如罪犯的无罪或无罪,或是否存在基因频率瓶颈)毫无意义。遭受大规模环境变化的物种导致其灭绝。在贝叶斯语境中,概率是“信念”而不是频率,可以将其应用于已经沉淀的频率。

现在,大多数贝叶斯方法需要为先验和结果完全指定概率模型。而且,大多数这些概率模型都是参数化的。与其他人的说法相一致,它们不必完全正确才能生成有意义的数据摘要。“所有模型都是错误的,有些模型是有用的。”

当然,有非参数贝叶斯方法。这些统计上有很多皱纹,通常来说,需要有意义地使用近乎全面的人口数据。


6

尽管上面有所有很好的答案,我回答的唯一原因是没有人引起对我们使用参数测试(至少在粒子物理学数据分析中)的第一原因的关注。因为我们知道数据的参数化。h!那是一个很大的优势。您正在将成百上千,数以百万计的数据点简化为您关心和描述分布的几个参数。这些告诉您基本的物理学(或任何科学给您的数据)。

当然,如果您对潜在的概率密度一无所知,那么您别无选择:使用非参数检验。非参数测试的确具有缺乏任何先入为主的偏见的优点,但可能难以实施-有时要困难得多。


5

非参数统计有其自身的问题!其中之一是强调假设检验,通常我们需要估计和置信区间,而在具有非参数的复杂模型中获取它们是很复杂的。在http://andrewgelman.com/2015/07/13/dont-do-the-wilcoxon/上有一篇关于此的很好的博客文章,并进行了讨论。 该讨论导致了另一篇文章,http:// notstatschat。 tumblr.com/post/63237480043/rock-paper-scissors-wilcoxon-test,这是推荐的对魏氏不同的观点。简短的版本是:Wilcoxon(以及其他等级检验)可能导致不传递。


4
我不确定传递性是最终的还是全部。而且,您可以对Wilcoxon检验求逆,以获得非常鲁棒和有用的位置估计器置信区间。
Frank Harrell

2
非传递性在因果建模中有其要点,但是对于简单的两个关联示例测试,我认为这并不是真正的问题。另外,我看不到非参数方法和参数方法在假设检验/估计/置信区间上的差异。有时,通过可靠的估计,您可以使用工作概率模型,以便相应的参数估计可以提供有意义的数据摘要(即使它本身不是正确的概率模型)。也许您可以扩展这个答案?
AdamO

2
通常,对于Wilcoxon检验会做出一些额外的假设,例如,一组的随机支配地位高于另一组,即如果真正恢复了传递性,则该假设为:
Scortchi-恢复莫妮卡

3

我要说的是,非参数统计数据比参数统计数据做出更少的假设,因此更普遍适用。

但是,如果使用参数统计并满足基本假设,则参数统计将比非参数统计功能更强大。


2

参数统计通常是合并外部[数据]知识的方法。例如,您知道错误分布是正常的,并且该知识来自先前的经验或其他考虑因素,而不是来自数据集。在这种情况下,通过假设正态分布,您会将外部知识整合到参数估计中,这必须改进您的估计。

在您的手表类比上。如今,除带有珠宝或特殊材料(如木材)的特殊零件外,几乎所有手表均具有防水功能。穿上它们的原因恰恰是:它们很特别。如果您要说防水的话,那么很多手表都是不防水的。佩戴它们的原因再次是它们的功能:您不会佩戴带套件和领带的潜水表。另外,如今,许多手表都向后敞开,让您可以欣赏水晶上的机芯。自然,这些手表通常不防水。


1
我喜欢这个比喻!我记得一位教授告诉我们,我们应该在同一件事上尝试不同的统计方法,以查看是否可以获得相同的结果。
Deep North

2

这不是假设检验方案,但可能是回答您的问题的一个很好的例子:让我们考虑聚类分析。有许多“非参数”聚类方法,例如层次聚类,K-means等,但是问题总是在于,如何评估您的聚类解决方案是否比其他可能的解决方案“更好”(并且通常有多种可能的解决方案) 。每种算法都能为您提供最好的解决方案,但是您如何知道是否还有更好的方法呢?现在,还有参数化的聚类方法,即所谓的基于模型的聚类,例如有限混合模型。使用FMM,您可以建立一个统计模型来描述数据的分布并将其适合数据。建立模型后,您可以评估在该模型下数据的可能性,可以使用似然比检验,比较AIC以及使用多种其他方法来检查模型拟合和模型比较。非参数聚类算法只是使用一些相似性标准对数据进行分组,而使用FMM则使您能够描述并尝试理解数据,检查数据的拟合度,进行预测...实际上,非参数方法简单,有效FMM可能会带来问题,但是基于模型的方法通常仍可以为您提供更丰富的输出。


2

对于非参数模型,对新数据进行预测和预测通常非常困难或不可能。例如,我可以使用Weibull或Lognormal生存模型预测未来10年的保修索赔数量,但是使用Cox模型或Kaplan-Meier无法做到。

编辑:让我更清楚一点。如果公司的产品有缺陷,那么他们通常会希望根据当前的保修索赔和销售数据预测未来的保修索赔率和CDF。这可以帮助他们确定是否需要召回。我不知道您如何使用非参数模型来执行此操作。


7
我不敢苟同。您可以使用Cox模型估算分位数,均值(如果未审查最高Y值)和各种概率。虽然无法预测超出数据范围的问题(如您所述),但是您可能会进行危险的推断。
Frank Harrell

@FrankHarrell是个好点,推断时一定要小心。
格伦(Glen)

那么随机森林,深度学习或SVM呢?他们击败了大多数(即使不是全部)用于预测的参数方法。
2015年

2
除了尝试使决策树学习对角线边界外
bill_e

1

老实说,我认为这个问题没有正确答案。从给定的答案来看,共识是参数测试比非参数等效功能更强大。我不会反对这种观点,但我将其更多地视为一种假设而非事实观点,因为这不是学校明确教导的内容,而且没有同行评审会告诉您“您的论文被拒绝,因为您使用了非参数测试”。这个问题是关于统计界无法明确回答但已视为理所当然的事情。

我个人的观点是,无论是参数化还是非参数化的偏好,都比传统更重要(因为缺少更好的用语)。用于测试和预测的参数技术首先出现并且历史悠久,因此要完全忽略它们并不容易。特别是,预测具有一些令人印象深刻的非参数解决方案,这些解决方案如今已广泛用作首选工具。我认为,这是机器学习技术(例如本质上非参数的)(如神经网络和决策树)近年来获得广泛普及的原因之一。


3
3/π95%

“共识”是指“一般性协议”,不是我的个人观点。
Digio

2
我并不是在说该陈述是代表您个人的观点还是他人的集体智慧,只是指出该陈述仅在参数测试的必要条件成立时才是正确的。当条件不成立时,“参数测试比非参数测试更强大”可能不再是事实了,实际上情况可能恰恰相反(有时相差很大)。
银鱼

触摸!..... +1
Digio 2015年

0

这是统计能力的问题。非参数测试通常具有比参数测试低的统计功效。


6
当满足假设条件时,参数测试将具有更大的功能。如果不满足他们的假设,则非参数测试可能会更强大。
gung-恢复莫妮卡

3
该答案非常简短,并且功能已在之前的答案中进行了讨论。您会考虑扩大它吗?
Scortchi-恢复莫妮卡

4
与不满足其假设时所遭受的功率损耗相比,参数测试的功率增益微乎其微。
弗兰克·哈雷尔

弗兰克(Frank),这取决于测试,某些测试对于违反其假设的情况更可靠。
隐藏的马尔可夫模型

0

已经有很多好的答案,但是有一些我未曾提及的原因:

  1. 熟悉度。根据您的受众,参数化结果可能比大致等效的非参数化结果更为熟悉。如果两者给出相似的结论,那么熟悉度就很好。

  2. 简单。有时,参数测试更易于执行和报告。一些非参数方法需要大量计算机资源。当然,计算机的速度提高了很多,算法也得到了改进,但是……数据变得“更大”了。

    1. 有时,参数测试通常的缺点实际上是优点,尽管这特定于特定的测试对。例如,我通常是分位数回归的拥护者,因为它比通常的方法做出的假设更少。但是有时您确实需要估计平均值,而不是中位数。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.