我想知道是否有一种检测异常值的简单方法。
对于我的一个项目,基本上是受访者一周内参加体育锻炼的次数与一周内他们在家里吃饭(快餐)的次数之间的相关性,我画了一个散点图,从字面上删除了极端的数据点。(散点图显示负相关。)
这是基于价值判断(基于散点图,这些数据点显然是极端的)。我没有做任何统计检验。
我只是想知道这是否是一种处理异常值的好方法。
我有350个人的数据,因此丢失(说)20个数据点对我来说并不担心。
我想知道是否有一种检测异常值的简单方法。
对于我的一个项目,基本上是受访者一周内参加体育锻炼的次数与一周内他们在家里吃饭(快餐)的次数之间的相关性,我画了一个散点图,从字面上删除了极端的数据点。(散点图显示负相关。)
这是基于价值判断(基于散点图,这些数据点显然是极端的)。我没有做任何统计检验。
我只是想知道这是否是一种处理异常值的好方法。
我有350个人的数据,因此丢失(说)20个数据点对我来说并不担心。
Answers:
没有简单的声音方法可以消除异常值。离群值可以有两种:
1)数据输入错误。这些通常是最容易发现并且总是最容易处理的。如果可以找到正确的数据,请对其进行更正。如果没有,请删除它。
2)不合法的合法数据。这要复杂得多。对于像您这样的双变量数据,离群值可能是单变量或双变量。
a)单变量 首先,“异常”取决于分布和样本量。您给我们提供了350个样本量,但是分布是什么?显然这是不正常的,因为它是一个相对较小的整数。泊松下的不寻常现象不会是负二项式。我有点怀疑负二项式关系为零膨胀。
但是,即使有了分布,(可能)离群值也会影响参数。您可以查看“留出一个”分布,在该分布中,如果数据除q以外的所有点,则检查数据点q是否为离群值。即使这样,如果有多个异常值怎么办?
b)双变量。这是变量本身的值都不是异常的地方,但变量的值却是奇数。一份可能的伪经报告说,人口普查曾说美国有20,000名12岁的寡妇。12岁的寡妇并不罕见,寡妇也不是,但12岁的寡妇也不例外。
考虑到所有这些,报告一个可靠的关系度量可能会更简单。
我已经对离群值进行了大量研究,尤其是当我从1978年至1980年在Oak Ridge进行能源数据验证时。针对正常数据的单变量离群值有正式测试(例如Grubbs检验和Dixon比率检验)。有针对多元离群值和时间序列的检验。巴内特(Barnett)和刘易斯(Lewis)撰写的有关“统计数据中的异常值”的书是有关异常值的圣经,几乎涵盖了所有内容。
当我在Oak Ridge从事数据验证时,我们拥有大型的多元数据集。对于单变量离群值,存在一个指向极端的方向(高度高于均值而高度低于均值)。但是对于多元离群值,有许多方向可以寻找离群值。我们的理念是考虑数据的预期用途。如果您要估计某些参数,例如双变量相关性或回归系数,那么您想寻找对目标参数产生最大影响的方向。那时我读了Mallows关于影响函数的未发表论文。Gnanadesikan的多变量分析书介绍了使用影响函数检测异常值的方法。当然,您也可以在Barnett和Lewis中找到它。
参数的影响函数定义在观测值的多元空间中的点上,并且实质上测量了包含数据点时与未包含数据点时参数估计之间的差异。您可以对每个样本点进行这样的估计,但是通常您可以为影响函数得出一个很好的函数形式,从而提供洞察力和更快的计算能力。
例如,在我于1982年发表在《美国数学与管理科学杂志》上的论文 “影响函数及其在数据验证中的应用”中,我展示了双变量相关影响函数的解析公式,并且恒定影响的轮廓是双曲线。因此,轮廓显示了影响函数最快增加的平面方向。
在我的论文中,我展示了如何将影响函数与FPC Form 4数据的能量产生和消耗进行双变量相关。两者之间存在明显的高正相关性,我们发现了一些对相关性估计有很大影响的离群值。进一步的调查表明,至少有一点是错误的,我们能够纠正它。
但是,在讨论异常值时,我经常提到的重要一点是,自动拒绝是错误的。离群值并不总是错误,有时它提供有关数据的重要信息。不应仅因为不符合我们的现实理论而删除有效数据。不管是否困难,都应始终调查异常发生的原因。
我应该提到,这不是该站点首次讨论多元离群值。搜索离群值可能会导致讨论多变量离群值的几个问题。我知道我之前已经参考过我的论文和这些书,并提供了链接。
另外,在讨论异常排除时,我们很多人都建议不要使用它,特别是如果仅基于统计测试来完成。彼得·胡伯(Peter Huber)经常提到鲁棒估计作为离群值拒绝的替代方法。这样的想法是,健壮的过程将减轻异常值的负担,从而减少其对估计的影响,而无需采取繁重的步骤拒绝和使用非鲁棒的估计器。
影响函数实际上最初是由弗兰克·汉佩尔(Frank Hampel)在1970年代初期(我认为是1974年)在其博士学位论文中开发的。他的想法实际上是使用影响函数来识别对异常值不是很强的估计量,并帮助开发强大的估计量。
这是先前有关该主题的讨论的链接,在该讨论中,我提到了我的一些使用影响函数检测时间序列离群值的工作。
首先,除非您确定该值不属于研究范围,否则不要删除非典型值!它们可能包含一些重要信息(可变性)。如果明显异常值是由于输入或测量数据不正确造成的,则应删除它们。如果您不知道用于获取数据的采样方法,则应按以下方式识别非典型值及其影响:
异常程度:预期有5%的观测值具有标准化残差()> 2.如果残差更高,则可以怀疑离群值。
在x的空间中距中心重心的距离度: (杠杆)。当一些 如果您的观察值很高,则可能会导致模型变形,因为超出了您的研究范围。
对拟合模型的影响程度:影响点是那些权重足以更改您的模型的点。然后,使用所有n个观测值的拟合模型的系数与使用所有点的拟合模型的系数有很大不同,但该观测值不是-th。
库克距离或库克D是对数据点影响的常用估计。:
可能的解决方案: