5
数据清理会使统计分析的结果恶化吗?
在流行期间,由于病毒传播(例如2002年美国的西尼罗河病毒),人民抵抗力下降,食物或水的污染减少,蚊子。这些流行病将以每1至5年发生一次的异常值出现。通过消除这些异常值,我们将消除流行病的证据,这些证据构成了预测和疾病理解的重要组成部分。 在处理由流行病引起的异常值时是否需要清理数据? 是要改善结果还是使统计分析结果恶化?
离群值是相对于数据集的简单表征而言似乎不寻常或描述得不好的观察结果。一种令人不适的可能性是,这些数据来自与打算研究的人群不同的人群。