Answers:
实际上,这取决于您的研究目的。我认为可能有以下几种:
因此,如果您的主要目标是2,那么清除数据将导致对未来预测的错误结论,即,不正确的预测效果。同样,第二种情况不一定能提供更好的预测,但您至少可以对流行病的可能性及其持续时间做出结论。这对于精算数学家至关重要,所以您可能就是其中之一吗?
我个人不会将其称为“数据清理”。我认为从数据编辑的意义上讲,数据清理更多—清理数据集中的不一致情况(例如,记录记录的年龄为1000,或者4岁的人是单亲,等等)。
数据中实际效果的存在不会使其变得“混乱”(相反,实际效果的存在会使它变得丰富)-尽管它可以使您的数学任务更加复杂。我建议,如果这是获得预测的唯一可行方法,则应以这种方式“清除”数据。如果有不丢掉信息的可行方法,请使用它。
听起来您可能会从某种周期性分析中受益,因为您说这种影响是周期性发生的(有点像“商业周期”)。
从我的角度来看,如果您正在预测某事,那么从该来源中消除真正的影响只会使您的预测更糟。这是因为您已经有效地“抛弃”了您希望预测的信息!
另一点是,可能难以确定该流行病造成多少死亡,以及由正常波动造成的死亡人数。
用统计术语来说,从您的角度看,这种流行病听起来像是对您实际要分析的事物的“滋扰”。因此您对它并不特别感兴趣,但是您需要在分析中以某种方式考虑它。在回归设置中执行此操作的“快速而肮脏的”方法是将流行年份/期间的指标作为回归变量包括在内。这将为您平均估计流行病的影响(并隐含地假设每种流行病的影响是相同的)。但是,此方法仅可用于描述影响,因为在预测中,您的回归变量是未知的(您不知道将来的哪个时期将是流行时期)。
解决流行病的另一种方法是使用具有两个组件的混合模型:一个流行病模型和一个“普通”模型。然后,该模型按两个步骤进行:1)将某个时期分类为流行病或正常时期,然后2)应用对其进行分类的模型。
为了给您一个一般性的答案,让我看一下我的一位老总经理:研究的机会在您所适合的模型的异常值中发现。
这种情况类似于我的罗伯特·米利坎(Robert Millikan)进行的确定电子电荷的实验。在获得诺贝尔化学奖后的数十年中,他对笔记进行了检查,结果发现他抛出了大量数据点,因为它们与他所寻找的结果不同。那是不好的科学吗?
如果发现一些异常值,则可能是由于“统计偏差”造成的。但是,如果发现多个异常值,则需要更仔细地探索数据。如果您无法归因于过时的原因,那么您将不理解该过程,并且统计模型将无法解决您的问题。模型的目的是总结一个过程,该模型不会神奇地总结出实验者无法理解的过程。
“数据清理”的作用是确定何时“我们的法律(模型)不起作用”。调整离群值或异常数据点有助于使我们获得正在接受的当前模型中参数的“可靠估计”。这些“离群值”(如果未进行处理)会导致模型参数出现不希望的失真,因为“估计驱动“解释了这些数据点”是“根据我们假设的模型没有表现”。换句话说,通过解释“坏人”,在解释的平方和方面有很多回报。应仔细检查根据经验确定的需要清洗的点,以便潜在地开发/建议当前模型中没有的原因。
做科学就是寻找重复的模式。
检测异常是识别不遵循重复模式的值。您还怎么知道某个点违反了该模型?实际上,增长,理解,发现和检查异常值的过程必须是迭代的。这不是一个新想法。
弗朗西斯·培根爵士在大约400年前在Novum Organum上写道:“自然,运动和怪物的错误纠正了对普通事物的理解,并揭示了一般形式。谁知道自然的方式,谁就会更容易注意到她的偏差。另一方面,知道她的偏差的人会更准确地描述她的方式。”
我们通过观察当前规则何时失败来更改规则。
如果确实确定的异常点都是脉冲并且具有相似的影响(大小),那么我们建议以下内容(引自另一张海报)
在回归设置中,“一种“快速而肮脏的”方法是将流行年份/期间的指标作为回归变量包括在内。这将使您对流行病的影响进行平均估计(并且隐含地假设影响是每种流行病都一样。)但是,这种方法仅用于描述效果,因为在预测中,您的回归变量是未知的(您不知道将来哪个时期是流行病。)”
当然,这要求各个异常(脉冲年)具有相似的效果。如果它们不同,那么上述portmanteau变量将是不正确的。
一个在回顾数据发现疫情的最常用的方法是真正寻找离群-许多流感研究者,例如,主要专注于自己的拟合模型的残差,而不是模型本身,看地方的“天模型的预测失败-模型可能失效的方法之一是出现流行病。
但是,必须区分结果中的异常值(可能不是有史以来最好的主意)和大多数人所说的“数据清理”。在这里,您寻找异常值的原因不是因为它们代表了统计问题,而是因为它们引发了数据质量问题。
例如,在我拥有的数据集中,有一个疾病发作的变量。对于一个主题,这个日期是1929年11月。我认为这是正确的吗?否。这表示需要解决的数据质量问题-在这种情况下,将根据有关主题的其他信息更正日期。这种类型的数据清除将积极改善统计结果的质量。