从数据中删除异常值-您可以删除的最大异常值数量是多少?


9

我的数据中有几个异常值,我想排除它们以查看结果是否发生变化。您认为一个人应限制的最大异常值是多少?

谢谢! 在此处输入图片说明


您的图形在这里被打乱了:y轴上的数字标签丢失了,图例条目也没有区别。(这可能是隐藏未发布数据的一种方法,但这无助于我们为您提供良好的建议。)隐秘的图例不会影响您的问题,但不知道您的工作规模会限制有用答案的范围。 。所示数据显示中等偏斜或负偏斜;这可能是有道理的,而明显的异常值仅是其后果。或者,可能是您进行了过度转换,例如使用了对数,而数据则不值得。
尼克·考克斯

Answers:


9

没有最大值或最小值。如果离群值是不良数据或出于其他实质性原因将其删除,则应将其删除。如果没有实质性原因,那么我建议使用对异常值具有鲁棒性的方法。我不会删除离群值,因为它们离其他点有点远。


5
同意 注意:猎人,猎人(Box),亨特(Hunter)和亨特(Hunter):“实验者的统计资料”说,在化学工业中,异常值通常会带来新的专利!根据情况,离群值可能是数据中最重要的一条信息!永远不要轻易删除它们。
kjetil b halvorsen

3
同样在天体物理学中。“让我们从数据中删除黑洞和中子星” :-)。
彼得·弗洛姆

1
彼得·弗洛姆:是的!在人类中,如果我们之间没有离群值,我们仍将生活在石器时代!
kjetil b halvorsen

5
在此示例中,请注意,所有7个标记的离群值均具有较低的值,而没有一个均具有较高的值。这可能表示度量存在问题,或者可能意味着非常有趣的事情。无论哪种方式,仅删除此处的异常值而不考虑导致低值的原因似乎都是不明智的。
EdM 2015年

1
我对这个问题的解释有些不同。它不建议从分析中删除异常值,这是该答案所隐含的假设。它仅询问如何进行敏感性分析, “以查看结果是否改变”。尽管此处给出的有关是否删除异常值的建议很好-并且如果发现分析对异常值敏感,则显然会对后续决策产生影响-在这种情况下,这似乎不符合OP的利益。
whuber

1

我会强调在其他答案和评论中所说的内容(我认为@Peter Flom的答案是准确的,而EdM在所有测量方面都是正确的)。

分析数据是必须谨慎完成的事情。您必须非常清楚联系人中离群值的含义。例如,假设您的测量过程“正确”完成(我的意思是,您没有引入偏差,您未校准设备,读取仪器的人员正确完成了该操作,等等),有些离群值可能会告诉您一些有趣的事情有时非常重要

这是一个虚构的示例,如果不是在所有方面都100%正确,请放纵(在注释中注明)。;)

假设某人正在测试将一定量的物质应用于某些细菌培养物(种群)的效果。现在,“一般”的作用是稳定种群中细菌的数量,但是不同文化之间存在一些离群值。

想象一下,所有异常值都指示所有细菌都死亡的情况。或者,所有异常值都代表细菌种群失控生长的文化。

我想指出的是,您所感知到的异常值的性质可能是有意义的,并且每种结果的不同。您可能处于无法忍受细菌数量增加或减少的情况。

当然,如果您注意到某些物质被这些物质消灭了,您可能会对此事进行调查,因为这是一种易于识别的情况。但是并非所有现象都易于检测。

总结起来,离群值的概念在某种程度上是任意的,但是其含义是多重的并且具有不同的重要性。希望它能使您对此事进行思考... :)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.