Answers:
这是一个术语有点不一致的领域,其不幸的结果是混淆了一些统计讨论。内在的概念“”通常用于表示有错误(即受测量误差影响)但仍位于正确测量值分布的“内部”中的数据值。根据此定义,内部有两个方面:(1 )位于值的相关分布的内部;(2)是错误的值;相反,“异常值”的相应概念通常用于指代距离数据尾部较远的任何数据值。分布,但没有任何定义方面的假设,即错误。此术语会产生不幸的不一致,其中“内部”是错误的数据点(根据定义),而“外部”不一定是错误的数据点。在此术语下,“内部”和“异常”的并集并不对应于所有数据,甚至不对应于所有错误数据。
处理离群值:在这里和此处,我已经讨论了在其他问题中处理离群值的问题,但是为了方便起见,我将在这里重复其中的一些评论。离群点是与分布中其他大部分点相距较远的点,并且通过将数据点与某些假定的分布形式进行比较来完成“离群”的诊断。尽管有时可能由于测量错误而导致异常值,但是当数据遵循峰度较高(即肥尾)的分布时,也可以进行异常值的诊断,但是分析人员将数据点与峰度较低的假定分布形式(例如,正态分布)。
在异常测试中标记“异常值”实际上仅意味着您使用的模型分布没有足够多的尾部来准确表示观察到的数据。这可能是因为某些数据包含测量误差,或者可能只是来自带有粗尾的分布。除非出于某种原因认为与假定模型形式的偏差构成了测量误差的证据(这将需要理论上的分布假设),否则异常值的存在通常意味着您应更改模型以使用胖胖的分布尾巴。固有地很难区分测量误差和作为基础分布一部分的高峰度。
处理内部误差(实际上通常不涉及内部误差):除非您有指示测量误差的外部信息源,否则根本不可能识别“内部误差”。根据定义,这些是位于分布“内部”的数据点,其中大多数其他数据都在其中。因此,通过寻找与其他数据点“老化”的数据的测试无法检测到它。(在某些情况下,您可以检测到似乎在分布内部的“异常值”,但是从更复杂的分布表示出发,实际上是“异常值”。在这种情况下,该点实际上是异常值,
在极少数情况下,您可能拥有外部信息源,该信息源将您的数据子集标识为存在测量误差(例如,如果您进行的是大型调查,而您发现一位测量员只是在整理他们的数据) )。在这种情况下,该子集中分布内部的任何数据点都是“内部值”,并且通过外部信息已知会遭受测量误差。在这种情况下,您通常会删除所有已知错误的数据,即使其中一些“内部”位于您希望分布的分布内部。这里的要点是,即使数据点不在分布的尾部,它也可能是错误的。