为什么没有可靠（和可靠）的统计数据代替经典技术？

82

当使用数据解决业务问题时，通常至少有一个关键的假设支撑经典统计数据是无效的。在大多数情况下，没有人会去检查那些假设，所以您永远不会真正知道。

例如，到目前为止，有如此多的常见Web指标是“长尾的”（相对于正态分布），有据可查，因此我们将其视为理所当然。另一个例子是在线社区，即使在拥有成千上万成员的社区中，也有据可查的是，到目前为止，在许多此类社区中，对贡献/参与的最大贡献是由微不足道的“超级贡献者”群体造成的。（例如，几个月前，SO API在Beta中可用后，StackOverflow成员发布了他通过API收集的数据的简要分析；他的结论- 不到百分之一的SO成员占了大部分SO上的活动 （大概是提问，然后回答），剩下的1-2％占了绝大多数，绝大多数成员无所事事。

这类分布（通常是规则而不是例外）通常最好用幂律密度函数建模。对于这些类型的分布，甚至中心极限定理也难以应用。

因此，鉴于分析师对此感兴趣的人口众多，并且鉴于经典模型在这些数据上的表现明显较差，并且鉴于健壮且可靠的方法已经存在了一段时间（我相信至少有20年），为什么他们不经常使用吗？（我也想知道为什么我不经常使用它们，但这对CrossValidated来说并不是真正的问题。）

是的，我知道有些教科书章节专门介绍了可靠的统计信息，并且我知道有（一些）R程序包（robustbase是我熟悉和使用的R程序包），等等。

然而，鉴于这些技术的明显优势，它们通常显然是工作的更好工具- 为什么它们使用得不多？我们难道不希望看到与经典类似物相比，更可靠（更可靠）的统计数据使用得更多（也许甚至是推定）吗？

我听到的唯一实质性（即技术性）解释是，健壮的技术（同样适用于抗性方法）缺乏经典技术的功能/敏感性。我不知道在某些情况下是否确实如此，但是我确实在很多情况下都不是正确的。

最后的优先权：是的，我知道这个问题没有一个可以证明的正确答案；本网站上的问题很少。而且，这个问题是真正的询问。这不是提出观点的借口-我在这里没有观点，只是我希望为其提供一些有见地答案的问题。

— 道格
source

12

纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）撰写的《黑天鹅》（Black Swann）解释了为何在金融界使用简单的模型及其带来的危险。一个特殊的错误是将极低的概率等于零，并盲目地将正态分布应用于风险管理！

— 詹姆斯

9

当满足这些假设时，依赖于许多假设的测试将更加强大。假设观测值是IID高斯，则可以检验偏差的显着性，该均值表示为统计量。一组限制性较小的假设告诉我们使用中位数。我们可以走得更远，并假设观测值相互关联，以获得更高的鲁棒性。但是，每个步骤都会降低测试的能力，并且如果我们完全不做任何假设，那么我们的测试将毫无用处。健壮的测试隐式地对数据进行了假设，并且仅当这些假设与实际情况更好地匹配时，才比经典的假设更好

— Yaroslav Bulatov 2010年

69

研究人员想要小的p值，并且如果使用的方法可以做出更强的分布假设，则可以得到较小的p值。换句话说，非稳健的方法使您可以发表更多论文。当然，这些论文中有更多可能是误报，但出版物就是出版物。这是一个愤世嫉俗的解释，但有时是正确的。

— 约翰·D·库克
source

4

“有时”是一种轻描淡写的说法……作者的逻辑并不经常如此直接，但是刺激/奖励的情景是人们会视情况而定

— 约翰·

2

我不是因为愚昧无知而使研究人员不诚实。他们不了解统计的含义或要求的假设，但正如您所说，他们清楚地了解了刺激/奖励：p> 0.05 =>没有发表。

— John D. Cook 2010年

10

您还必须提出一些“当权者”（决策者，主管，审查者）可以理解的东西。因此，必须使用通用语言，这种语言发展得相当缓慢，因为这些人年龄较大，并且更容易适应变化，很大程度上是因为这可能会使迄今为止的职业无效！

— 詹姆斯

12

好点子。“我了解p值。只给我一个p值。” 讽刺的是，他们可能根本不知道p值，但这是另一回事。

— John D. Cook

2

我不认为这是绝对正确的。至少，我听说现代非参数通常会牺牲很少的功能（如果有的话）。AFAIK，在涉及秩转换的测试中，功率损耗最为明显，而在鲁棒方法中，功率损耗几乎不存在。

— Nick Stauner 2014年

42

因此，“经典模型”（无论它们是什么-我认为您的意思是像教科书中讲的简单模型一样，由ML估算）在某些（也许是许多）真实世界的数据集上失败了。

如果模型失败，则有两种基本的解决方法：

减少假设（减少模型）
做出更多假设（更多模型）

稳健的统计，拟似然法和GEE方法采用第一种方法，将估计策略更改为模型不能满足所有数据点的要求（稳健）或不需要表征数据的所有方面（QL和GEE）的方法。

替代方法是尝试建立一个模型，以明确建模污染数据点的来源或原始模型的某些方面，而这些方面似乎是错误的，同时使估算方法与以前相同。

有些人从直觉上更喜欢前者（在经济学中特别受欢迎），而有些人从直觉上更喜欢后者（在贝叶斯主义者中尤为流行，贝叶斯人倾向于更复杂的模型，尤其是当他们意识到要使用仿真工具进行建模时）无论如何推断）。

胖尾分布假设（例如，使用负二项式而不是泊松或t而不是正态）属于第二种策略。标有“可靠统计”的大多数东西都属于第一种策略。

实际上，推导针对现实上复杂问题的第一个策略的估算器似乎非常困难。并非那是不这样做的原因，但这也许可以解释为什么它不经常这样做。

— 共轭先验
source

4

+1。很好的解释。我还认为，某些“稳健”方法是临时性的（被截断的方法），“稳健”与方法的特定方面相关联，不是一般性质，而是许多人将“稳健”解释为“我不知道”。不必担心我的数据，因为我的方法很健壮。”

— 韦恩

好答案。令我感到困扰的是，如此众多的答案集中在理解稳健统计数据的难度或忽视忽视假设的动机上。他们忽视了人在那里谁知道有这样的情况，需要强大的统计信息时，当他们没有。

— Kenji

29

我建议这是教学的滞后。大多数人在大学或大学学习统计数据。如果统计学不是您的第一学位，而是数学或计算机科学学位，那么您可能只涵盖基础统计学模块：

可能性
假设检验
回归

这意味着当遇到问题时，您将尝试并使用已知的知识来解决问题。

数据不正常-记录日志。
数据有令人讨厌的异常值-请删除它们。

除非您偶然发现其他东西，否则很难做得更好。如果您不知道Google叫什么东西，使用Google很难找到它！

我认为，使用所有技术后，新技术的过滤将需要一段时间。标准假设检验成为标准统计课程需要多长时间？

顺便说一句，拥有统计学学位的人在教学上仍然会滞后-只是一个较短的时间！

— csgillespie
source

4

但这至少在心理学方面引起了一个有趣的教学问题，因为据我所知，我领域中使用的大多数介绍性统计书籍除开开之外，并没有真正讨论有效的措施。

— russellpierce

3

的确如此，而且在心理学上，非参数与非常态之间也存在令人讨厌的混淆，这似乎妨碍了理解。

— richiemorrisroe 2011年

2

我们中的一些心理学家只是对统计的一切感到困惑！:)

— Nick Stauner 2014年

21

在合理水平上接受过统计数据分析培训的任何人都会定期使用可靠统计的概念。大多数研究人员知道足够多的信息以查找严重的异常值和数据记录错误。删除可疑数据点的政策可以追溯到19世纪，与瑞利勋爵（Lord Rayleigh），GG斯托克斯（GG Stokes）及其同龄人一样。如果问题是：

研究人员为什么不使用更现代的方法来计算位置，比例，回归等估算值？

那么答案就在上面-在过去的25年中，例如1985年至2010年，这些方法基本上得到了发展。盲目使用经典方法。John Tukey评论说，仅使用哪种鲁棒性/抗性方法并不重要-重要的是您使用了一些方法。常规地同时使用经典方法和鲁棒性/抗性方法是完全适当的，并且仅当它们相差甚远时才担心。但是，当他们不同，你应该觉得辛苦。

如果相反，问题是：

为什么研究人员不停下来询问有关其数据的问题，而不是盲目地应用高度不稳定的估计？

然后答案就归结为培训。太多的研究人员从未接受过统计学方面的适当培训，以对p值作为“统计意义”的全部和最后结果的普遍依赖来概括。

@Kwak：按照这个词的经典意义，Huber对1970年代的估计是可靠的：它们抵制离群值。再降估算器实际上早于1980年代：普林斯顿健壮性研究（1971年）包括位置的平方估计，即再降估算。

— 韦斯利·伯尔
source

2

projecteuclid.org/… 由Peter Huber撰写的有关John Tukey对可靠统计的贡献的免费文档。合理易读，轻按公式。

— 韦斯利·伯尔

20

统计学是面向非统计学研究人员的工具，他们根本不在乎。

我曾经试图帮助我前妻与人合着的医学文章。我写了好几页的书来描述这些数据，它的含义，为什么某些观察结果被排除在研究之外...而首席研究员，一名医生将其全部扔掉并请某人计算p值，这就是她的全部。（以及几乎所有会阅读本文的人）都很关心。

— 卡洛斯·阿西里（Carlos Accioly）
source

12

我给出两个方向的答案：

健壮的事物不一定标记为健壮。如果您认为对所有事物都具有鲁棒性，那么您会幼稚。
留下健壮性问题的统计方法有时无法适应现实世界，但通常比看起来像厨具的算法更有价值（作为一个概念）。

发展

首先，我认为统计资料中有很多不错的方法（您会在R包中找到它们，而不一定在某处提到了健壮性），这些方法自然是健壮的，并且已经在真实数据上进行了测试，而且事实是您找不到“健壮”的算法”在某处提到并不意味着它不可靠。无论如何，如果您认为健壮意味着普及，那么您将永远找不到任何健壮的过程（没有免费的午餐），您需要对所分析的数据有一定的了解/专长，才能使用适应性工具或创建适应性模型。

另一方面，某些统计方法并不可靠，因为它们专用于一种单一类型的模型。我认为现在是在实验室工作以了解事物的好时机。最好分开处理问题，以了解我们的解决方案是什么问题……这是数学家的工作方式。高斯模型迁移论者的例子：之所以受到批评，是因为高斯假设从未实现，但带来了今天实际用于统计的75％的想法。您是否真的认为所有这一切都是为了按照出版或灭亡规则（我不喜欢，我同意）来写论文？

— 罗宾·吉拉德
source

11

作为一个为我自己的研究学习了一些统计数据的人，我想原因可能是教学上和惯性上的。

我已经在自己的领域内观察到，讲授主题的顺序反映了该领域的历史。那些首先出现的想法将首先被教授，依此类推。对于只关注统计数据进行粗略指导的人们，这意味着他们将首先学习古典统计数据，并且可能最后学习经典统计数据。然后，即使他们学习更多，由于原始效果，古典的东西也会更好地坚持下去。

而且，每个人都知道两个样本t检验是什么。并不是所有人都知道曼-惠特尼或威尔科克森排名和测验是什么。这意味着我只需要花一点精力来解释我的健壮测试是什么，而不用经典测试来进行任何测试。这种情况显然会导致使用健壮方法的人数减少。

— 乔弗洛德
source

9

Wooldridge“计量经济学概论-一种现代方法” 2E，第261页。

如果异方差稳健性标准误比通常的OLS标准误更有效，那么为什么我们要打扰我们所有的标准误？并且误差呈正态分布，则无论样本大小如何，通常的t统计量都具有精确的t分布。仅当样本量变大时，才可以证明鲁棒的标准误差和鲁棒的t统计量是合理的。在样本量较小的情况下，稳健的t统计量可能具有与t分布不太接近的分布，并且可能会偏离我们的推论。对于大样本量，我们可以提出在横截面应用中始终仅报告异方差稳健的标准误差的理由，

2

这里的坏消息：pan.oxfordjournals.org/content/23/2/159

— conjugateprior

7

尽管它们并不互相排斥，但我认为贝叶斯统计的日益普及是其中的一部分。贝叶斯统计可以通过先验和模型平均来实现很多相同的目标，并且在实践中往往更强大。

— 乔
source

6

我不是统计学家，我在统计学方面的经验非常有限，我只是在计算机视觉/ 3d重建/姿势估计中使用可靠的统计学。这是我从用户角度考虑的问题：

首先，稳健的统计数据在工程和科学中使用很多，而没有称之为“稳健的统计数据”。许多人直观地使用它，是在针对实际问题调整特定方法的过程中使用它的。例如，常用的迭代式加权最小二乘和修整均值/修剪最小二乘，只是用户不知道他们使用了可靠的统计信息-他们只是使该方法适用于真实的非合成数据。

其次，在结果可验证或存在清晰可见的错误度量的情况下，实际上总是使用“直观”和有意识的鲁棒统计。如果以正态分布获得的结果显然无效或错误，人们便会开始权重修改，修剪，采样，阅读一些论文并最终使用健壮的估算器，无论他们是否知道项。另一方面，如果研究的最终结果只是一些图形和图表，并且对验证结果不敏感，或者如果正常的统计结果足够好-人们就不会打扰。

最后，关于稳健统计作为理论的有用性-虽然理论本身非常有趣，但它通常不会提供任何实际优势。大多数可靠的估算器都很简单直观，通常人们在没有任何统计知识的情况下重新发明它们。理论，如击穿点估计，渐近，数据深度，异方差等，可以使人们对数据有更深入的了解，但是在大多数情况下，这是不必要的。一个大例外是健壮的统计数据和压缩感测的相交，这产生了一些新的实用方法，例如“交叉绑定”

— mirror2image
source

5

我对稳健估计量的了解仅涉及回归参数的稳健标准误差，因此我的评论仅针对那些。我建议人们阅读这篇文章，

关于所谓的“ Huber Sandwich Estimator”和“ Robust Standard Errors”，作者：Freedman，A. David。60，第4号（2006年11月），第299-302页。doi：10.1198 / 000313006X152207（PDF版本）

我对这些方法特别关注的不是它们是错误的，而是它们只是分散了更大的问题。因此，我完全同意罗宾·吉拉德（Robin Girard）的回答和他提到的“免费午餐”。

— 安迪·W
source

3

稳健统计所需的演算和概率通常（较难），因此（a）理论较少，（b）较难掌握。

— 约翰·罗斯
source

2

令我惊讶的是，在长长的答案列表aafics中没有提到高斯-马尔可夫定理：

在具有球面误差的线性模型中（通过有限的误差方差，其过程中包括无异常值的假设），OLS在一类线性无偏估计量中非常有效-在某些情况下（有限制）您不能比OLS做得更好”。

我并不是在说几乎所有时间都应该使用OLS，但是这肯定是造成这种情况的原因（特别是因为在教学中专注于OLS是一个很好的借口）。

— 克里斯多夫·汉克
source

好吧，是的，但是假设最小化方差是相关标准，并且尾巴很重，事实并非如此！

— kjetil b halvorsen

1

当然。我只是想将我认为可能是认为OLS是一种有用技术的最著名的原因添加到了可靠的技术没有替代它的可理解原因列表中：在某些情况下，您不应该替代它。

— Christoph Hanck

0

我的猜测是，可靠的统计信息永远是不够的，即，要使这些统计信息可靠，将跳过一些有关分布的信息。我怀疑这并不总是一件好事。换句话说，要在健壮性和信息丢失之间进行权衡。

例如，中位数很健壮，因为（与平均值不同）它仅利用大约一半元素的信息（在离散情况下）：

m e d i a n ({1, 2, 3, 4, 5}) = 3 = m e d i a n ({0.1, 0.2, 3, 4000, 5000})

$median(\{1, 2, 3, 4, 5\})=3=median(\{0.1, 0.2, 3, 4000, 5000\})$

— 阿约戈
source

1

请参阅stats.stackexchange.com/questions/74113/…，以了解中位数非常脆弱且均值表现良好的情况。

— Nick Cox