人们经常谈论处理统计中的异常值。据我所知,困扰我的是,离群值的定义完全是主观的。例如,如果某个随机变量的真实分布非常重尾或是双峰的,则用于检测异常值的任何标准可视化或摘要统计信息都将错误地删除您要从中采样的分布部分。如果存在异常值,那么对异常值的严格定义是什么?如何在不将不合理的主观性引入分析的情况下处理异常值?
rigorous definition of an outlier
能定义一个unreasonable amounts of subjectivity
客观的方式;-),谢谢
人们经常谈论处理统计中的异常值。据我所知,困扰我的是,离群值的定义完全是主观的。例如,如果某个随机变量的真实分布非常重尾或是双峰的,则用于检测异常值的任何标准可视化或摘要统计信息都将错误地删除您要从中采样的分布部分。如果存在异常值,那么对异常值的严格定义是什么?如何在不将不合理的主观性引入分析的情况下处理异常值?
rigorous definition of an outlier
能定义一个unreasonable amounts of subjectivity
客观的方式;-),谢谢
Answers:
只要您的数据来自具有已知属性的已知分布,就可以将异常值严格定义为不太可能由观察到的过程生成的事件(如果您认为“不太可能”是非严格的,则所有假设检验都是)。
但是,此方法在两个层面上都是有问题的:假定数据来自具有已知属性的已知分布,并且存在将异常值视为被某些神奇的仙女走私到数据集中的数据点的风险。
在没有神奇的数据原因的情况下,所有数据都来自您的实验,因此实际上不可能有离群值,而只有怪异的结果。这些可能来自记录错误(例如,一个400000卧室的房子,售价4美元),系统的测量问题(如果物体离边界太近,图像分析算法会报告较大的区域)实验问题(有时,晶体从溶液中沉淀出来,会发出非常高的信号)或系统的功能(一个单元有时会分成三部分而不是两个部分),但是它们也可能是一种从未有人考虑过的机制的结果,因为这种机制很少见,您正在研究,这意味着您所做的某些工作根本不为人所知。
理想情况下,您需要花时间研究每个异常值,并且只有在了解了为什么它不适合您的模型后才将其从数据集中删除。这既费时又主观,因为原因高度依赖于实验,但更糟糕的是:如果您不了解异常值的来源,则可以选择让异常值“弄乱”结果,或定义一些“数学上严格的”方法来隐藏您缺乏理解的地方。换句话说,通过追求“数学上的严谨性”,您可以在不产生显着效果和不进入天堂之间做出选择。
编辑
如果您只拥有一个数字列表,而又不知道它们来自何处,则您将无法判断某个数据点是否是离群值,因为您始终可以假设所有数据都是离群值。
您是正确的,消除异常值看起来像是一个主观练习,但这并不意味着它是错误的。对于有关数据分析的每项决定,始终必须有严格的数学原因的强制性需求通常只是虚假的严谨面纱,无论如何这实际上是主观的练习。如果您想对遇到的每种情况应用相同的数学依据,则尤其如此。(如果所有事物都有防弹的清晰数学规则,那么您就不需要统计学家了。)
例如,在长尾分布的情况下,没有一种保证方法可以仅根据数字来确定您是拥有一个具有离群值的潜在基础分布,还是拥有两个离群值中的一部分的两个潜在基础分布。或者,天堂禁止,只是实际的数据分布。
收集的数据越多,您越会进入分布的低概率区域。如果您收集了20个样本,则z值为3.5的可能性很小。如果您收集了10,000个样本,则很可能会得到一个样本,这自然是分布的一部分。鉴于以上所述,您如何仅仅因为排除某些极端因素而做出决定?
通常,选择最佳方法进行分析通常是主观的。它是否过于主观取决于决定的解释和离群值。
我认为如果不假设基础过程的模型会引起数据,就不可能定义一个异常值。没有这样的模型,我们就无法确定数据是异常还是“错误”的参照系。我发现有用的离群值的定义是,离群值是一个观察(或多个观察值),它们无法与其他效果良好的模型协调一致。
这里有很多很好的答案。但是,我想指出的是两个问题。第一个是“什么是离群值?”,更具体地说,是对此给出“严格定义”。这很简单:
离群值是来自与您要研究的数据/其余数据不同的总体/分布/数据生成过程的数据点。
第二个问题是“我如何知道/检测到数据点是异常值?” 不幸的是,这非常困难。但是,此处给出的答案(确实很好,我无法改进)将对该任务很有帮助。
定义1:如上所述,一组反映相同过程(例如过程A)的数据中的异常值是一个观察值(或一组观察值),不太可能是过程A的结果。
该定义当然涉及对过程A的似然函数的估计(因此有一个模型),并设置不太可能的意思(即,决定在何处停止...)。这个定义是我在这里给出答案的根本。它更与假设检验的重要性或契合度有关。
定义2异常值是一组观察值中的一个观察值,因此,当使用给定模型对一组观察值进行建模时,如果被移除并分开处理(按照我在此提及的精神混合使用),则准确性更高)。ģ X
该定义涉及“给定模型”和准确性的度量。我认为此定义更多是从实践角度出发,更多是来自离群值的。在原始点,离群值检测是用于可靠统计的工具。
显然,如果您了解第一个定义中的计算似然性涉及得分的建模和计算,则可以使这些定义非常相似:)
考虑到我目前对生成此数据的过程的了解,离群值是一个给我带来不便的数据点。
我相信这个定义是可以做到的。
离群值仅在常客领域很重要。如果单个数据点给您的模型增加了偏差,而偏差是由您的理论预先确定的基础分布定义的,那么对于该模型而言,这是一个离群值。主观性在于以下事实:如果您的理论提出了不同的模型,那么您可以将不同的点集作为离群值。