关于文本挖掘的好书？

11

嗨，我想知道是否有一些有关文本挖掘和分类的好书，还有一些案例研究？如果不是这样的话，一些公众可以获取的论文/期刊就可以了。如果他们用R更好地说明自己的例子。我不是在寻找逐步的手册，而是要说明一些针对各种问题的各种文本挖掘方法的利弊。

references text-mining

5

查看 http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf 使用MapReduce进行数据密集型文本处理-这本书相当学术，但涵盖了许多常用的文本处理技术以及如何对其进行解析使用map reduce在大型数据集上

www.rtexttools.com 这是一个出色的R包，可帮助您将各种分类算法（包括某些集成方法）应用于文本分析。和

— Ross Farrelly
source

4

为了使这个答案自成一体，您介意为每个链接提供简短的摘要吗？

— chl 2012年

4

我最近阅读了该领域的四本书：

Feldman，R.和James Sanger，J.（2006）。文本挖掘手册：分析非结构化数据的高级方法。剑桥大学出版社。

这一部分着重于实际示例，软件和应用文本挖掘。它给出了文本挖掘的实际用法的多个示例。如果您想阅读文本挖掘工具的商业应用，可能会感兴趣。

Srivastava，AN和Sahami，M.（2009年）。文本挖掘：分类，聚类和应用程序。查普曼和霍尔/ CRC。

它是一系列研究论文，用作使用不同文本挖掘工具的示例。对于入门测试，它过于集中。

Weiss，SM，Indurkhya，N.，Zhang，T。和Damerau，F。（2005）。文本挖掘：用于分析非结构化信息的预测方法。 施普林格。

介绍性很强的文字，介绍了一些一般性问题。

曼宁（1999）。统计自然语言处理的基础。麻省理工学院出版社。

这是我已经阅读过的关于该主题的最好的书。它写得很好，很清楚，以实践友好的方式深入了理论。首先进行一般性介绍，然后再回顾一些最常用的方法和算法。如果您只需要选择一本书，那么我推荐这本书。

您还可以轻松找到有关自然语言处理和文本挖掘的多本书籍，这些书籍着重于使用R（tm库）或Python（nltk库）。

— 提姆
source

2

这可能并不是您要查找的内容的正确点，但是Jeffrey Friedl的Mastering Regular Expressions是学习如何使用正则表达式解析文本的重要资料。他没有讨论建模技术，但是，从应用正则表达式的过程中得出的结论来看，您可以应用各种标准建模方法。

— 查理
source

2

我不时地回想一本书，是肖洛姆·魏斯（Sholom Weiss）撰写的《文本挖掘：预测方法》。它有许多解决问题的想法，这些想法对我很有用，因为有时文本挖掘涉及尝试不同的事情-全局字典与本地字典，要保留的功能数量等。我发现这本书是一个很好的想法产生者。它还有案例研究。

— 唤醒2睡眠
source

0

我建议位于http://www.nltk.org/的 NLP 是免费的，并与python中的NLTK结合使用。祝一切顺利

— 吉隆坡普拉迪
source