关于文本挖掘的好书?


11

嗨,我想知道是否有一些有关文本挖掘和分类的好书,还有一些案例研究?如果不是这样的话,一些公众可以获取的论文/期刊就可以了。如果他们用R更好地说明自己的例子。我不是在寻找逐步的手册,而是要说明一些针对各种问题的各种文本挖掘方法的利弊。

Answers:


5

查看 http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf 使用MapReduce进行数据密集型文本处理-这本书相当学术,但涵盖了许多常用的文本处理技术以及如何对其进行解析使用map reduce在大型数据集上

www.rtexttools.com 这是一个出色的R包,可帮助您将各种分类算法(包括某些集成方法)应用于文本分析。和


4
为了使这个答案自成一体,您介意为每个链接提供简短的摘要吗?
chl 2012年

4

我最近阅读了该领域的四本书:

Feldman,R.和James Sanger,J.(2006)。文本挖掘手册:分析非结构化数据的高级方法。剑桥大学出版社。

这一部分着重于实际示例,软件和应用文本挖掘。它给出了文本挖掘的实际用法的多个示例。如果您想阅读文本挖掘工具的商业应用,可能会感兴趣。

Srivastava,AN和Sahami,M.(2009年)。文本挖掘:分类,聚类和应用程序。查普曼和霍尔/ CRC。

它是一系列研究论文,用作使用不同文本挖掘工具的示例。对于入门测试,它过于集中。

Weiss,SM,Indurkhya,N.,Zhang,T。和Damerau,F。(2005)。文本挖掘:用于分析非结构化信息的预测方法。 施普林格。

介绍性很强的文字,介绍了一些一般性问题。

曼宁(1999)。统计自然语言处理的基础。麻省理工学院出版社。

这是我已经阅读过的关于该主题的最好的书。它写得很好,很清楚,以实践友好的方式深入了理论。首先进行一般性介绍,然后再回顾一些最常用的方法和算法。如果您只需要选择一本书,那么我推荐这本书。

您还可以轻松找到有关自然语言处理和文本挖掘的多本书籍,这些书籍着重于使用R(tm库)或Python(nltk库)。


2

这可能并不是您要查找的内容的正确点,但是Jeffrey Friedl的Mastering Regular Expressions是学习如何使用正则表达式解析文本的重要资料。他没有讨论建模技术,但是,从应用正则表达式的过程中得出的结论来看,您可以应用各种标准建模方法。


2

我不时地回想一本书,是肖洛姆·魏斯(Sholom Weiss)撰写的《文本挖掘:预测方法》。它有许多解决问题的想法,这些想法对我很有用,因为有时文本挖掘涉及尝试不同的事情-全局字典与本地字典,要保留的功能数量等。我发现这本书是一个很好的想法产生者。它还有案例研究。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.