我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。
问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?
我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。
问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?
Answers:
显然有可能,但尚不清楚这可能不是一个好主意。
让我们阐明几种有限或不足的解决方案:
实际上,您说的是,离群值是完全不可信的,在某种程度上,您唯一可能的猜测是该值应为均值。如果这就是您的想法,那么可能会更诚实,就是忽略相关的观察,因为您显然没有足够的信息来做出更好的猜测。
不用说什么,您首先需要一个或多个条件来识别异常值(@Frank Harrell暗示)。否则,这是一个任意和主观的程序,即使它是根据判断来辩护的。在某些条件下,以这种方式消除异常值可能会产生更多的异常值作为副作用。一个例子可能是离群值离均值的标准偏差不止如此之多。删除异常值会更改标准偏差,并且现在可以限定新的数据点,依此类推。
这里的均值大概是所有其他值的均值,@ David Marx明确指出了这一点。没有这个规定,这个想法是模棱两可的。
使用平均值似乎是安全或保守的过程,但是将值更改为平均值将几乎更改所有其他统计信息,包括水平,刻度和形状的度量以及不确定性的指标,@ whuber强调了这一点。
平均值甚至可能不是一个可行的值:简单的例子是值是整数,但平均值通常不是整数。
即使使用汇总度量是一个谨慎的想法,使用均值而不是中位数或任何其他度量也需要一些理由。
每当存在其他变量时,在其他意义上修改一个变量的值而不参考其他变量可能会使数据点异常。
如何处理离群值是一个开放且非常困难的问题。松散地,不同的解决方案和策略具有不同的吸引力。这是部分可能性的清单。该顺序是任意的,并不意味着根据适用性,重要性或任何其他标准传达任何顺序。这些方法也不是互斥的。
一个(在我看来好)的定义是,“[O] utliers是相对于大多数样品的原因惊喜样本值”(WN维纳布尔斯和BD里普利2002年,现代应用与S.统计纽约:施普林格,第119页)。但是,情人眼中出乎意料,它取决于数据的某些默认或显式模型。可能存在另一种模式,离群值一点也不令人惊讶,因此数据实际上(例如)是对数正态或伽玛,而不是正态。简而言之,准备好(重新)考虑您的模型。
进入实验室或现场,然后再次进行测量。通常这是不切实际的,但在一些科学中似乎是标准的。
测试异常值是否真实。大多数测试对我来说似乎是非常人为设计的,但是您可能会发现可以认为适合您情况的测试。始终需要非理性的信念,认为测试是适当的,才能应用测试,然后将其表示为典型的理性。
根据判断将它们扔出去。
使用一些或多或少的自动化(通常不是“客观”)规则将它们丢弃。
完全或部分忽略它们。这可能是正式的(例如修整),也可以只是将它们保留在数据集中,而将它们从分析中删除,因为它太难处理了。
使用某种调整将它们拉入,例如Winsorizing。
通过使用其他一些可靠的估算方法来淡化它们。
通过改变规模来淡化它们。
通过使用非身份链接功能来淡化它们。
通过拟合一些合适的胖尾,长尾或重尾分布来容纳它们,而不使用预测变量。
通过使用指标或虚拟变量作为模型中的额外预测变量来容纳。
通过使用一些非参数(例如,基于排名)过程来回避问题。
使用自举,包围或基于置换的过程来处理隐含的不确定性。
根据确定性逻辑进行编辑,以更可能的值替换异常值。“一个18岁的祖母是不太可能的,但是这个人出生于1932年,所以大概是81岁。”
编辑使用某种插补方法来替换一个不可能的或难以置信的离群值,这些插补方法是目前可以接受的非白魔法。
有无分析,并从统计,科学或实践上看异常值有多大差异。
贝叶斯的东西。我以前对什么都不能提供任何细节一无所知。
编辑第二版受益于其他答案和评论。我试图标记出我的灵感来源。
您的问题暗示了几个问题。
1-5中没有一个有明显的答案。如果您确实认为这些“异常值”是错误的,并且不想使用可靠的统计方法,则可以使它们丢失,并使用多重插补作为一种可能的解决方案。如果变量是因变量,则稳健的选择是序数回归。
该提案有很多缺陷。这也许是最大的。
假设您正在收集数据,并且看到以下值:
。
然后是一个异常值:
因此,您将其替换为均值:
下一个数字很好:
现在的平均值是3。请等待一分钟,现在的平均值是3,但是我们将平均值替换为2的1000,只是因为它是第四个值。如果我们更改样品顺序怎么办?
问题在于,我们代替1000的错误数据取决于其他数据。如果样本应该代表独立的测量,那就是认识论的问题。
基本上,删减不合适的结果是一回事(如果根据算法一致地完成,而不是根据实验者的情绪波动不断进行,则可以证明是合理的)。
完全伪造的结果在哲学,认识论和伦理学上都是令人反感的。
可能存在一些令人费解的情况,这与如何使用结果有关。例如,假设用当前均值替换异常值是某些嵌入式计算机算法的一部分,该算法使它能够实现闭环控制系统。(它对一些系统输出进行采样,然后调整输入以实现控制。)一切都是实时的,因此必须在给定的时间段内提供一些东西来代替丢失的数据。如果这种发现有助于克服故障并确保平稳运行,那么一切都很好。
这是来自数字电话的另一个示例:PLC(分组丢失隐藏)。发生废话,数据包丢失,但通信是实时的。PLC根据正确接收到的数据包中的最新音高信息合成伪造的语音。因此,如果讲话者说元音“ aaa”然后丢失了一个数据包,则PLC可以通过在帧持续时间(例如5或10毫秒或任何其他时间)中推断“ aaa”来填充丢失的数据包。“ aaa”是如此,类似于说话者的声音。这类似于使用“均值”代替被认为是不好的值。这是一件好事; 它比切入和切出声音更好,并且有助于清晰度。
如果数据伪造是骗人掩盖失败工作的计划的一部分,那便是另一回事。
因此,我们不能独立于应用程序来考虑它:如何使用统计信息?替代会导致无效的结论吗?有道德含义吗?
Cousineau和Chartier的这篇文章讨论了用均值代替离群值
http://www.redalyc.org/pdf/2990/299023509004.pdf
他们写:
Tabachnick和Fidell(2007)建议将缺失的数据替换为相应单元格中剩余数据的平均值。但是,此过程将倾向于减少种群的扩散,使观察到的分布更趋于瘦小,并可能增加I型错误的可能性。更复杂的技术是多重插补,涉及用可能的值替换异常值(或丢失的数据)(Elliott和Stettler,2007; Serfling和Dang,2009)。
还有一个R包“离群值”,具有用均值替换离群值的功能。我在Google搜索中也发现了一些热门内容,这表明SPSS也具有这种功能,但是我对该程序并不熟悉。也许,如果您遵循这些主题,则可以发现该实践的技术基础。
我知道统计中有两种相关的类似方法。
有关更多详细示例,请参见Wikipedia:
https://zh.wikipedia.org/wiki/Trimmed_estimator
https://zh.wikipedia.org/wiki/温莎
请注意,这对于某些统计数据(例如计算均值)很有用。修整/ Winsorized均值通常比假肢均值更好地估计了真实均值。在其他情况下,它可能会破坏您的统计信息。例如,在计算方差时,修剪将始终低估您的真实方差。假设确实有一些极端的观察结果是错误的,那么Winsorization的效果会更好一些(它可能仍会被低估,但幅度不会太大)。
我看不到用均值替换极值将适合这里。
但是,还有另一种相关的实践:缺失值估算。假设您的异常值是有缺陷的,毫无价值的数据,那么请删除它。然后执行插补时,典型的替代值将是平均值或众数:
处理异常值的传统方法是简单地将其删除,以便仅对“良好”数据进行模型训练。
请记住,这些异常值会影响平均值。如果将异常值替换为从数据集中删除异常值后计算出的平均值,则该回归线不会有任何区别,因为回归线(来自简单线性回归)将始终通过训练数据的均值(这将减少您的方差不过,您可以估算一下,鉴于您知道存在异常值,这可能与您想要的相反)。
您的方法对模型的影响取决于异常值的影响(杠杆)。我建议您使用建议的方法,而不是完全删除要点。