用均值替换离群值

31

我的朋友不懂互联网，问了这个问题。我没有统计背景，并且一直在互联网上搜索此问题。

问题是：是否可以用均值替换异常值？如果有可能，是否有任何书籍参考/期刊可以备份此声明？

— 阿伦
source

25

当然可以这样做，但是很难想象有这样做的意义。

— 彼得·弗洛姆

2

已经有几个更长的答案了，但是@Peter Flom的一句话摘要不太适合作为摘要。

— 尼克·考克斯

4

还没有答案指出房间里的大象：尽管用均值代替“离群值”可以保留数据集的平均值，但它几乎可以改变任何其他统计量。它甚至会更改均值标准误的估计。因此，为了支持@Peter Flom的评论，结果数据集对于任何可靠的推断形式似乎都没有用。（可以想象，它不能单独使用，而可以在迭代过程的中间步骤中用于识别异常值，从而解释为什么这样的过程可能首先存在。）

— whuber

1

@whuber显然是关键点。我将其作为另一个答案，以免任何人读得太快都不会错过它。人们被这个装置所吸引，并且显然有一些人需要意识到，它不是（a）不是一个好主意（b）是一个坏主意。

— Nick Cox

1

@ user2357112含义是要使用的平均值是其他值的平均值。被视为不可信的异常值不应包含在计算中。

— Nick Cox

41

显然有可能，但尚不清楚这可能不是一个好主意。

让我们阐明几种有限或不足的解决方案：

实际上，您说的是，离群值是完全不可信的，在某种程度上，您唯一可能的猜测是该值应为均值。如果这就是您的想法，那么可能会更诚实，就是忽略相关的观察，因为您显然没有足够的信息来做出更好的猜测。
不用说什么，您首先需要一个或多个条件来识别异常值（@Frank Harrell暗示）。否则，这是一个任意和主观的程序，即使它是根据判断来辩护的。在某些条件下，以这种方式消除异常值可能会产生更多的异常值作为副作用。一个例子可能是离群值离均值的标准偏差不止如此之多。删除异常值会更改标准偏差，并且现在可以限定新的数据点，依此类推。
这里的均值大概是所有其他值的均值，@ David Marx明确指出了这一点。没有这个规定，这个想法是模棱两可的。
使用平均值似乎是安全或保守的过程，但是将值更改为平均值将几乎更改所有其他统计信息，包括水平，刻度和形状的度量以及不确定性的指标，@ whuber强调了这一点。
平均值甚至可能不是一个可行的值：简单的例子是值是整数，但平均值通常不是整数。
即使使用汇总度量是一个谨慎的想法，使用均值而不是中位数或任何其他度量也需要一些理由。
每当存在其他变量时，在其他意义上修改一个变量的值而不参考其他变量可能会使数据点异常。

如何处理离群值是一个开放且非常困难的问题。松散地，不同的解决方案和策略具有不同的吸引力。这是部分可能性的清单。该顺序是任意的，并不意味着根据适用性，重要性或任何其他标准传达任何顺序。这些方法也不是互斥的。

一个（在我看来好）的定义是，“[O] utliers是相对于大多数样品的原因惊喜样本值”（WN维纳布尔斯和BD里普利2002年，现代应用与S.统计纽约：施普林格，第119页）。但是，情人眼中出乎意料，它取决于数据的某些默认或显式模型。可能存在另一种模式，离群值一点也不令人惊讶，因此数据实际上（例如）是对数正态或伽玛，而不是正态。简而言之，准备好（重新）考虑您的模型。
进入实验室或现场，然后再次进行测量。通常这是不切实际的，但在一些科学中似乎是标准的。
测试异常值是否真实。大多数测试对我来说似乎是非常人为设计的，但是您可能会发现可以认为适合您情况的测试。始终需要非理性的信念，认为测试是适当的，才能应用测试，然后将其表示为典型的理性。
根据判断将它们扔出去。
使用一些或多或少的自动化（通常不是“客观”）规则将它们丢弃。
完全或部分忽略它们。这可能是正式的（例如修整），也可以只是将它们保留在数据集中，而将它们从分析中删除，因为它太难处理了。
使用某种调整将它们拉入，例如Winsorizing。
通过使用其他一些可靠的估算方法来淡化它们。
通过改变规模来淡化它们。
通过使用非身份链接功能来淡化它们。
通过拟合一些合适的胖尾，长尾或重尾分布来容纳它们，而不使用预测变量。
通过使用指标或虚拟变量作为模型中的额外预测变量来容纳。
通过使用一些非参数（例如，基于排名）过程来回避问题。
使用自举，包围或基于置换的过程来处理隐含的不确定性。
根据确定性逻辑进行编辑，以更可能的值替换异常值。“一个18岁的祖母是不太可能的，但是这个人出生于1932年，所以大概是81岁。”
编辑使用某种插补方法来替换一个不可能的或难以置信的离群值，这些插补方法是目前可以接受的非白魔法。
有无分析，并从统计，科学或实践上看异常值有多大差异。
贝叶斯的东西。我以前对什么都不能提供任何细节一无所知。

编辑第二版受益于其他答案和评论。我试图标记出我的灵感来源。

— 尼克·考克斯
source

1

（+1）个好答案。在贝叶斯方面，可能会做很多事情，但是实际上，您正在尝试建立一些模型来了解如何具有这样的价值（导致异常值的过程）。例如，它可能是简单的事情，例如“每个数据值都具有比数据量大得多的分布的较小的未知概率”，然后对该概率进行先验分布，并为该分布确定形式选择参数的分布和先验。效果是减轻不适合模型的点的影响。

— Glen_b-恢复莫妮卡

16

您的问题暗示了几个问题。

什么是“异常值”？
是否应替换“异常值”？
与其他估算相比，平均值有何特殊之处？
当替换为一个导致方差太小的值时，如何补偿以增加表观方差？
为什么不使用能抵抗异常值的鲁棒估计器呢？
这是自变量还是因变量？

1-5中没有一个有明显的答案。如果您确实认为这些“异常值”是错误的，并且不想使用可靠的统计方法，则可以使它们丢失，并使用多重插补作为一种可能的解决方案。如果变量是因变量，则稳健的选择是序数回归。

— 弗兰克·哈雷尔
source

1

+1，好点。我对OLR的建议很感兴趣；您是否有理由不喜欢使用健壮的损失函数（例如Tukey的双平方）？

— gung-恢复莫妮卡

2

Y

$Y$

Y

$Y$

9

该提案有很多缺陷。这也许是最大的。

假设您正在收集数据，并且看到以下值：

2 ， 3 ， 1个

$2, 3, 1$

$6/3 = 2$ 。

然后是一个异常值：

2 ， 3 ， 1个 ， 1000

$2, 3, 1, 1000$

因此，您将其替换为均值：

2 ， 3 ， 1个 ， 2

$2, 3, 1, 2$

下一个数字很好：

2 ， 3 ， 1个 ， 2 ， 7

$2, 3, 1, 2, 7$

现在的平均值是3。请等待一分钟，现在的平均值是3，但是我们将平均值替换为2的1000，只是因为它是第四个值。如果我们更改样品顺序怎么办？

2 ， 3 ， 1个 ， 7 ， 1000

$2, 3, 1, 7, 1000$

$(2 + 3 + 1 + 7)/4 = 13/4$

问题在于，我们代替1000的错误数据取决于其他数据。如果样本应该代表独立的测量，那就是认识论的问题。

$n$ $n$ $n$ $n$ $n$

基本上，删减不合适的结果是一回事（如果根据算法一致地完成，而不是根据实验者的情绪波动不断进行，则可以证明是合理的）。

完全伪造的结果在哲学，认识论和伦理学上都是令人反感的。

可能存在一些令人费解的情况，这与如何使用结果有关。例如，假设用当前均值替换异常值是某些嵌入式计算机算法的一部分，该算法使它能够实现闭环控制系统。（它对一些系统输出进行采样，然后调整输入以实现控制。）一切都是实时的，因此必须在给定的时间段内提供一些东西来代替丢失的数据。如果这种发现有助于克服故障并确保平稳运行，那么一切都很好。

这是来自数字电话的另一个示例：PLC（分组丢失隐藏）。发生废话，数据包丢失，但通信是实时的。PLC根据正确接收到的数据包中的最新音高信息合成伪造的语音。因此，如果讲话者说元音“ aaa”然后丢失了一个数据包，则PLC可以通过在帧持续时间（例如5或10毫秒或任何其他时间）中推断“ aaa”来填充丢失的数据包。“ aaa”是如此，类似于说话者的声音。这类似于使用“均值”代替被认为是不好的值。这是一件好事; 它比切入和切出声音更好，并且有助于清晰度。

如果数据伪造是骗人掩盖失败工作的计划的一部分，那便是另一回事。

因此，我们不能独立于应用程序来考虑它：如何使用统计信息？替代会导致无效的结论吗？有道德含义吗？

— 安农
source

电话的故事非常有趣，但是似乎需要进行合理的插值来替换丢失的值。与离群值替换的联系是脆弱的，因为仅需要纯本地操作，而本地更改仅次于整个数据集的“分析”。

— Nick Cox 2013年

2

这里有很多有趣的想法（+1）。但是请注意，替换过程不一定是顺序的。可以一次识别所有 “异常值”，然后用其余均值替换所有 “异常值”。这是一个一致的过程，与Winsorizing不同。

— ub

6

Cousineau和Chartier的这篇文章讨论了用均值代替离群值

http://www.redalyc.org/pdf/2990/299023509004.pdf

他们写：

Tabachnick和Fidell（2007）建议将缺失的数据替换为相应单元格中剩余数据的平均值。但是，此过程将倾向于减少种群的扩散，使观察到的分布更趋于瘦小，并可能增加I型错误的可能性。更复杂的技术是多重插补，涉及用可能的值替换异常值（或丢失的数据）（Elliott和Stettler，2007； Serfling和Dang，2009）。

还有一个R包“离群值”，具有用均值替换离群值的功能。我在Google搜索中也发现了一些热门内容，这表明SPSS也具有这种功能，但是我对该程序并不熟悉。也许，如果您遵循这些主题，则可以发现该实践的技术基础。

参考文献

Cousineau，D。和Chartier，S。（2010）。离群值检测和处理：回顾。国际心理研究杂志，3（1），58-67。

— 汤玛士
source

我在您的参考文献中搜索了所有出现的“均值”一词，但没有找到讨论用均值代替离群值的地方。如果我错过了一些事情，您能更准确地指出这次讨论发生的地方吗？

— ub

1

我更改了链接，因为无法正常工作。在文档的第9页上，作者说：“显然应该删除虚假活动所导致的异常值。但是，在多变量设计中，这样做可能会导致删除过多的参与者，以致无法进行分析。 Tabachnick和Fidell（2007）建议用相应单元格中剩余数据的平均值替换丢失的数据。”

— 托马斯

2

谢谢：我现在看到了。但是，将其描述为“讨论”（暗示可能存在一些优缺点的平衡）可能会产生误导，因为此段提到均值替代过程（a）仅适用于多变量应用，而（b）仅适用于指出其缺陷，最后建议考虑多重插补。（有趣的是，该程序的参考文献甚至没有出现在其参考书目中。）

— whuber

5

是的，引用的参考文献不在围兜中很奇怪。它似乎是《使用ANOVA进行实验设计》一书。我试图回应最初的要求，并为将平均值替换为离群值的做法提供参考。我可以通过快速搜索找到该文件，希望它可以提供线索，以便OP可以找到更完整的答案。

— 托马斯

4

处理离群值时要记住的主要事情是它们是否提供有用的信息。如果您希望它们定期发生，那么将它们从数据中删除将保证您的模型永远不会预测它们。当然，这取决于您要模型执行的操作，但是请记住，您不必删除它们。如果它们包含重要信息，则可能需要考虑一个可以说明这些问题的模型。一种简单的方法是获取变量的日志，这可以解释幂律关系。或者，您可以使用一个模型来解释它们，并分配大量错误。

如果确实要删除它们，那么通常的方法是删除它们或Winsorise它们以消除极端值。我没有教科书，但是如果您想进一步阅读，那里的Wiki链接确实引用了一些教科书。关于应用统计的大多数文本都应包含离群值部分。

— m
source

3

我知道统计中有两种相关的类似方法。

$1%$ 各个；应该对称地进行！）
Winsorization：类似于修整后的均值，您仅修改极端观测值。但是，您可以使用最大/最小的非极端观测值代替它们，而不是丢弃它们。这通常比修剪效果更好。

有关更多详细示例，请参见Wikipedia：

https://zh.wikipedia.org/wiki/Trimmed_estimator

https://zh.wikipedia.org/wiki/温莎

请注意，这对于某些统计数据（例如计算均值）很有用。修整/ Winsorized均值通常比假肢均值更好地估计了真实均值。在其他情况下，它可能会破坏您的统计信息。例如，在计算方差时，修剪将始终低估您的真实方差。假设确实有一些极端的观察结果是错误的，那么Winsorization的效果会更好一些（它可能仍会被低估，但幅度不会太大）。

我看不到用均值替换极值将适合这里。

但是，还有另一种相关的实践：缺失值估算。假设您的异常值是有缺陷的，毫无价值的数据，那么请删除它。然后执行插补时，典型的替代值将是平均值或众数：

https://zh.wikipedia.org/wiki/Imputation_%28statistics%29

— Anony-Mousse
source

1

不对称修剪是一种已知且可辩护的策略。

— Nick Cox

2

处理异常值的传统方法是简单地将其删除，以便仅对“良好”数据进行模型训练。

请记住，这些异常值会影响平均值。如果将异常值替换为从数据集中删除异常值后计算出的平均值，则该回归线不会有任何区别，因为回归线（来自简单线性回归）将始终通过训练数据的均值（这将减少您的方差不过，您可以估算一下，鉴于您知道存在异常值，这可能与您想要的相反）。

您的方法对模型的影响取决于异常值的影响（杠杆）。我建议您使用建议的方法，而不是完全删除要点。

— 大卫·马克思
source

4

除非删除的过程是客观的，并且删除该数据的过程将是有偏差的，否则将对所有获得预测的未来数据应用相同的过程。

— Frank Harrell 2013年

0

是的，可以用可能的形式替换离群值，例如，让我们使用人类身高大小的数据集，假设我们有一些离奇值，例如500厘米和400厘米，那么我们可以替换出现在数据集，因为在数据记录过程中引起了一些错误。因此，您可以尝试的选项是1.将其替换为数据整体颜色的中位数（不是均值，因为它很容易出现异常值）。2.替换为“列”中出现次数最多的数据点。3.如果是分类值，则可以尝试响应编码。（在其中记录单词的概率或单词总数中出现的值）

— 苏吉特耶拿
source