涵盖数据预处理和异常检测技术的好书


11

就像标题一样,有谁知道一本很好的,最新的书,该书涵盖了一般的数据预处理,尤其是异常检测技术?

这本书并不需要专心于此,但是它应该详尽地处理上述主题-我对以起点为起点的论文感到满意,并引用了一系列论文,对各种技术的解释必须出现在本书中。这本书本身。

处理丢失数据的技术更可取,但不是必需的...


您能告诉我们您正在查看哪种数据(科学领域或测量技术)吗?
cbeleites对SX不满意,2012年

从网络用户收集的数据(不能更具体)。包括时间戳(尽管数据至少在直观上与时间不严格相关),分类属性和连续属性。离群值可能是由数不清的原因引起的,包括 网络机器人,恶意用户和许多其他来源。数据也很大(CSV格式的GB,数百万个条目)
em70

对我来说,它足够具体:无需对化学或光谱数据集进行预处理……
塞贝利特人对SX不满意,2012年

Answers:


3

尽管特定于Stata,但我发现Scott Long的书《使用Stata进行数据分析的工作流程》在数据管理和准备领域具有不可估量的价值。作者提供了有关数据管理良好实践的许多有用建议,例如清理和存档数据,检查异常值以及处理丢失的数据。


2
我也很喜欢这本书,但是就数据管理而言,我是Stata用户。虽然我不同意,但此列表中的其他人却认为它太具斯塔特性而无用,因此请告诫/选民。
Dimitriy V. Masterov 2012年

从我所收集的资料来看,我的统计资料非常准确,而且我既不熟悉统计资料,如果我(数据太大,使用不同的技术)对这个项目也
无济于事

这本书确实很特别。特定的数据(尤其是元数据)处理技术是特定于Stata的,但是总体思想可以在平台之间转移。令我惊讶的是,市场上大约有20份Stata图书与100本R图书的比例,在R中没有任何可比的书籍来组织工作流程-后者是不可能的吗?我生动地回忆起分配给Stata的最大内存量是在一台64Gb机器上的48Gb,这就是大小是否重要。如果需要操纵结构完全不同的对象,则需要在R中而不是在Stata中进行。
StasK 2012年

0

对于SAS,有使用SAS软件的 Ron Cody的数据清理技术。SAS-L上有一句话:“罗恩·科迪(Ron Cody)的书永远不会出错”


恐怕SAS不是我选择的工具,也不熟悉它。此外,我正在寻找某种方法,而不是食谱。假设我追求的是事物的数学和建模方面的更多内容。
em70

0

如果您具有根据主题确定的基础知识(识别异常值,缺失值,权重,编码),则可以在普通的学术文献中找到更多内容。例如,在调查研究(该问题可能会出错,并且容易导致多种偏见的话题)中,有很多不错的文章可以找到。

在准备定期进行阴囊切除术时,事情可能会变得不那么复杂。例如,那里的问题可能是您删除了太多“异常值”,从而人为地很好地拟合了模型。

因此,除了学习良好的技术外,我还建议您也要记住常识。确保正确而不是盲目地应用这些技术。至于其他答案中的软件讨论。我认为SPSS可以很好地进行数据准备(我也听说过SAS的好处),具体取决于您的数据集大小。下拉菜单非常直观。

但是,作为直接回答您的问题的依据,学术文献可能会或可能不会成为您进行数据准备的很好的资料,具体取决于主题和分析。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.