“异常值”是一个方便的术语,用于将数据收集在一起,该数据与您期望的过程看起来不一样,以便从分析中删除。
我建议不要(稍后再进行 caveat)消除异常值。我的背景是统计过程控制,因此经常处理大量自动生成的时间序列数据,这些数据将根据数据和分布使用运行图/移动框图/等进行处理。
离群值的问题是它们将始终提供有关“过程”的信息。通常,您认为一个过程实际上是许多过程,并且它要比您认为的要复杂得多。
使用您问题中的示例,我建议可能存在许多“过程”。由于...会有变化
- 一台电导仪采集的样品
- 电导设备之间采集的样品
- 当受试者取下探针时
- 当对象移动时
- 一个受试者的皮肤在其整个身体内或在不同采样天之间(头发,水分,油脂等)的差异
- 主体之间的差异
- 进行人员测量和人员之间差异的培训
所有这些过程都会在数据中产生额外的变化,并且可能会移动均值并改变分布的形状。其中许多您将无法分为不同的流程。
因此,将数据点删除为“异常值”的想法...只有在可以肯定地将数据点归因于我不想在分析中包括的特定“过程”时,我才删除数据点。然后,您需要确保将不包含的原因记录为分析的一部分,因此显而易见。不要假定归因,这是在数据收集过程中通过观察记录额外笔记的关键。
我会质疑您的陈述“因为无论如何大多数都是错误”,因为它们不是错误,而只是您在测量中确定为不同的不同过程的一部分。
在您的示例中,我认为排除可能归因于您不想分析的单独流程的数据点是合理的。