自动数据清理


10

ML的一个常见问题是数据质量差:特征值错误,实例分类错误等。

解决此问题的一种方法是手动检查数据并检查,但是还有其他技术吗?(我敢打赌!)

哪个更好,为什么?


Google Refine可能值得一看。
Dimitriy V. Masterov 2012年

Answers:


6

通过PCA之类的方法减少维数将有助于您理解对于表示数据至关重要的维数。

要检查分类错误的实例,您可以对数据进行基本的k均值聚类,以了解原始数据适合拟议类别的程度。尽管不是自动的,但在此阶段进行可视化会有所帮助,因为您的视觉大脑本身就是一个强大的分类器。

就完全丢失的数据而言,统计数据已经有许多技术可以应对这种情况,包括估算,从现有集合或另一集合中获取数据以填补空白。


3
绘制数据手动检查。
andreister

@andreister我认为逐点检查电子表格是手动检查,但是好的,我明白您的意思了。
jonsca 2012年

5

您无法真正从循环中删除有知识的人并期望获得合理的结果。这并不意味着该人必须单独查看每个项目,而是最终需要一些实际知识才能知道数据摘要/图表是否合理。(例如:变量A可以为负,变量B可以大于变量A,还是分类变量C有4或5个选择?)

一旦您对数据有了熟练的了解,您就可以制定一系列规则来自动测试数据。问题是,您可能没有想到会出现其他错误。(例如,在数据收集过程中出现编程错误,将变量A复制到变量C。)


好答案。我只是要确保在文档中保留用于清理变量的语法,并在注释中添加有关更改原因的说明性段落。:)
米歇尔(Michelle)

1

如果您知道自己的数据不是很好,那么检查异常值也总是一件好事。大多数时候都有异常。

如果您有很多功能,则必须降低尺寸。PCA对此非常有效。

如果缺少数据,则可以使用插补或插值,但是如果需要,可以使用协作过滤。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.