数据清理会使统计分析的结果恶化吗？

17

在流行期间，由于病毒传播（例如2002年美国的西尼罗河病毒），人民抵抗力下降，食物或水的污染减少，蚊子。这些流行病将以每1至5年发生一次的异常值出现。通过消除这些异常值，我们将消除流行病的证据，这些证据构成了预测和疾病理解的重要组成部分。

在处理由流行病引起的异常值时是否需要清理数据？

是要改善结果还是使统计分析结果恶化？

— 何博士
source

12

实际上，这取决于您的研究目的。我认为可能有以下几种：

您想了解导致病例和死亡且不受流行时期影响的典型因素是什么，以及导致流行的因素（因此您对典型的不强迫主要概率感兴趣）-在这种情况下，您显然需要消除流行病从数据中提取时间段，因为它们的目的是研究离群值以得出您想要得出的结论
您可能希望将流行病变化纳入模型中（例如，体制转换模型，欢迎社区提供任何好的链接和模型建议），因为您想知道流行病发生的可能性（以及持续时间）它将持续进行），以测试稳定性并进行预测 -在这种情况下，您不排除流行时期，而是寻找更复杂的模型，而不是寻求锤子计量经济学工具或类似的工具 $OLS$
您的主要目标是发现并实时监测流行病-这是计量经济学的一个特殊领域，许多同事正在维尔纽斯大学工作（当然，您希望有很多流行病观察要处理））

因此，如果您的主要目标是2，那么清除数据将导致对未来预测的错误结论，即，不正确的预测效果。同样，第二种情况不一定能提供更好的预测，但您至少可以对流行病的可能性及其持续时间做出结论。这对于精算数学家至关重要，所以您可能就是其中之一吗？

— 德米特里·塞洛夫（Dmitrij Celov）
source

简单好回答。您在年轻时就有相当的知识。

— DrWho 2011年

15

我个人不会将其称为“数据清理”。我认为从数据编辑的意义上讲，数据清理更多—清理数据集中的不一致情况（例如，记录记录的年龄为1000，或者4岁的人是单亲，等等）。

数据中实际效果的存在不会使其变得“混乱”（相反，实际效果的存在会使它变得丰富）-尽管它可以使您的数学任务更加复杂。我建议，如果这是获得预测的唯一可行方法，则应以这种方式“清除”数据。如果有不丢掉信息的可行方法，请使用它。

听起来您可能会从某种周期性分析中受益，因为您说这种影响是周期性发生的（有点像“商业周期”）。

从我的角度来看，如果您正在预测某事，那么从该来源中消除真正的影响只会使您的预测更糟。这是因为您已经有效地“抛弃”了您希望预测的信息！

另一点是，可能难以确定该流行病造成多少死亡，以及由正常波动造成的死亡人数。

用统计术语来说，从您的角度看，这种流行病听起来像是对您实际要分析的事物的“滋扰”。因此您对它并不特别感兴趣，但是您需要在分析中以某种方式考虑它。在回归设置中执行此操作的“快速而肮脏的”方法是将流行年份/期间的指标作为回归变量包括在内。这将为您平均估计流行病的影响（并隐含地假设每种流行病的影响是相同的）。但是，此方法仅可用于描述影响，因为在预测中，您的回归变量是未知的（您不知道将来的哪个时期将是流行时期）。

解决流行病的另一种方法是使用具有两个组件的混合模型：一个流行病模型和一个“普通”模型。然后，该模型按两个步骤进行：1）将某个时期分类为流行病或正常时期，然后2）应用对其进行分类的模型。

— 概率逻辑
source

（+1）个不错的建议，尽管可能有更多不太肮脏的技巧。

— Dmitrij Celov 2011年

+1; 对于后代，我想发表以下评论：您声明“消除真正的影响……只会使您的预测更糟”。在上下文中，您显然是正确的，但是，在一般情况下，这不一定是正确的。（我正在考虑“偏差方差折衷”，这在预测建模中很重要。）再次，我认为您就在这里，并且我知道偏差方差的折衷；我想为以后遇到这个答案并可能会误解该陈述的任何人提及这一点。

— gung-恢复莫妮卡

5

为了给您一个一般性的答案，让我看一下我的一位老总经理：研究的机会在您所适合的模型的异常值中发现。

这种情况类似于我的罗伯特·米利坎（Robert Millikan）进行的确定电子电荷的实验。在获得诺贝尔化学奖后的数十年中，他对笔记进行了检查，结果发现他抛出了大量数据点，因为它们与他所寻找的结果不同。那是不好的科学吗？

如果发现一些异常值，则可能是由于“统计偏差”造成的。但是，如果发现多个异常值，则需要更仔细地探索数据。如果您无法归因于过时的原因，那么您将不理解该过程，并且统计模型将无法解决您的问题。模型的目的是总结一个过程，该模型不会神奇地总结出实验者无法理解的过程。

— 血吸虫病
source

这是人类的倾向。罗伯特·米利坎也不例外。我很高兴看到许多新事物得到启发，并强调了统计模型背后的哲学。

— DrWho 2011年

5

“数据清理”的作用是确定何时“我们的法律（模型）不起作用”。调整离群值或异常数据点有助于使我们获得正在接受的当前模型中参数的“可靠估计”。这些“离群值”（如果未进行处理）会导致模型参数出现不希望的失真，因为“估计驱动“解释了这些数据点”是“根据我们假设的模型没有表现”。换句话说，通过解释“坏人”，在解释的平方和方面有很多回报。应仔细检查根据经验确定的需要清洗的点，以便潜在地开发/建议当前模型中没有的原因。

如何使用年度病死率评估一种状态与另一种状态的干预效果？

做科学就是寻找重复的模式。

检测异常是识别不遵循重复模式的值。您还怎么知道某个点违反了该模型？实际上，增长，理解，发现和检查异常值的过程必须是迭代的。这不是一个新想法。

弗朗西斯·培根爵士在大约400年前在Novum Organum上写道：“自然，运动和怪物的错误纠正了对普通事物的理解，并揭示了一般形式。谁知道自然的方式，谁就会更容易注意到她的偏差。另一方面，知道她的偏差的人会更准确地描述她的方式。”

我们通过观察当前规则何时失败来更改规则。

如果确实确定的异常点都是脉冲并且具有相似的影响（大小），那么我们建议以下内容（引自另一张海报）

在回归设置中，“一种“快速而肮脏的”方法是将流行年份/期间的指标作为回归变量包括在内。这将使您对流行病的影响进行平均估计（并且隐含地假设影响是每种流行病都一样。）但是，这种方法仅用于描述效果，因为在预测中，您的回归变量是未知的（您不知道将来哪个时期是流行病。）”

当然，这要求各个异常（脉冲年）具有相似的效果。如果它们不同，那么上述portmanteau变量将是不正确的。

— 爱尔兰统计局
source

@IrishStat：很棒的解释和令人难忘的报价。您保持了自己的资历和专业知识。您能否参考我之前的问题stats.stackexchange.com/questions/8358/…

— DrWho 2011年

1

@DrWHO：2014年的水平转移标识纠正了一个看起来很差的残差图，这是“知识等待被发现”的一个例子，因为它揭示了政策更改日期和其全面实施/实现日期之间的明显延迟。声明说，在2004年（17年的第11年）完全实现了永久性的（逐步）转换，这反映了事实上的日期，因为法律上的日期是几年前。

— IrishStat

@IrishStat：谢谢您的澄清。要说服政策制定者，医生和公众很难相信一种特定的治疗方法可以使疾病的后果发生急剧变化。需要几十年。在2004年看到的这种水平转变反映了接受新事物的延迟。在处理问题stats.stackexchange.com/questions/8358/…时

— DrWho 2011年

1

我上面的评论应该是2004年的LEVEL SHIFT。对不起，我很困惑。

— IrishStat

1

@DrWHO：在回答您的问题“在处理该问题时，最好还是将级别转换或将其视为异常值，以计算状态1的病死率”。如果您不对其进行处理，那么您可以简单地说STATE1在2004年发生了水平转换，而STATE2则没有，因此它们是不同的，但是您不能在该陈述上施加任何可能性。在将STATE1进行级别转换之后，已经在2004年对状态更改的数据进行了归一化。然后可以将归一化的数据（清理后的数据）与STATE2的归一化数据进行比较，而不会失去一般性。

— IrishStat

5

一个在回顾数据发现疫情的最常用的方法是真正寻找离群-许多流感研究者，例如，主要专注于自己的拟合模型的残差，而不是模型本身，看地方的“天模型的预测失败-模型可能失效的方法之一是出现流行病。

但是，必须区分结果中的异常值（可能不是有史以来最好的主意）和大多数人所说的“数据清理”。在这里，您寻找异常值的原因不是因为它们代表了统计问题，而是因为它们引发了数据质量问题。

例如，在我拥有的数据集中，有一个疾病发作的变量。对于一个主题，这个日期是1929年11月。我认为这是正确的吗？否。这表示需要解决的数据质量问题-在这种情况下，将根据有关主题的其他信息更正日期。这种类型的数据清除将积极改善统计结果的质量。

— 方铁
source