当使用数据解决业务问题时,通常至少有一个关键的假设支撑经典统计数据是无效的。在大多数情况下,没有人会去检查那些假设,所以您永远不会真正知道。
例如,到目前为止,有如此多的常见Web指标是“长尾的”(相对于正态分布),有据可查,因此我们将其视为理所当然。另一个例子是在线社区,即使在拥有成千上万成员的社区中,也有据可查的是,到目前为止,在许多此类社区中,对贡献/参与的最大贡献是由微不足道的“超级贡献者”群体造成的。(例如,几个月前,SO API在Beta中可用后,StackOverflow成员发布了他通过API收集的数据的简要分析;他的结论- 不到百分之一的SO成员占了大部分SO上的活动 (大概是提问,然后回答),剩下的1-2%占了绝大多数,绝大多数成员无所事事。
这类分布(通常是规则而不是例外)通常最好用幂律密度函数建模。对于这些类型的分布,甚至中心极限定理也难以应用。
因此,鉴于分析师对此感兴趣的人口众多,并且鉴于经典模型在这些数据上的表现明显较差,并且鉴于健壮且可靠的方法已经存在了一段时间(我相信至少有20年),为什么他们不经常使用吗?(我也想知道为什么我不经常使用它们,但这对CrossValidated来说并不是真正的问题。)
是的,我知道有些教科书章节专门介绍了可靠的统计信息,并且我知道有(一些)R程序包(robustbase是我熟悉和使用的R程序包),等等。
然而,鉴于这些技术的明显优势,它们通常显然是工作的更好工具- 为什么它们使用得不多?我们难道不希望看到与经典类似物相比,更可靠(更可靠)的统计数据使用得更多(也许甚至是推定)吗?
我听到的唯一实质性(即技术性)解释是,健壮的技术(同样适用于抗性方法)缺乏经典技术的功能/敏感性。我不知道在某些情况下是否确实如此,但是我确实在很多情况下都不是正确的。
最后的优先权:是的,我知道这个问题没有一个可以证明的正确答案;本网站上的问题很少。而且,这个问题是真正的询问。这不是提出观点的借口-我在这里没有观点,只是我希望为其提供一些有见地答案的问题。