Answers:
查看 http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf 使用MapReduce进行数据密集型文本处理-这本书相当学术,但涵盖了许多常用的文本处理技术以及如何对其进行解析使用map reduce在大型数据集上
www.rtexttools.com 这是一个出色的R包,可帮助您将各种分类算法(包括某些集成方法)应用于文本分析。和
我最近阅读了该领域的四本书:
Feldman,R.和James Sanger,J.(2006)。文本挖掘手册:分析非结构化数据的高级方法。剑桥大学出版社。
这一部分着重于实际示例,软件和应用文本挖掘。它给出了文本挖掘的实际用法的多个示例。如果您想阅读文本挖掘工具的商业应用,可能会感兴趣。
Srivastava,AN和Sahami,M.(2009年)。文本挖掘:分类,聚类和应用程序。查普曼和霍尔/ CRC。
它是一系列研究论文,用作使用不同文本挖掘工具的示例。对于入门测试,它过于集中。
Weiss,SM,Indurkhya,N.,Zhang,T。和Damerau,F。(2005)。文本挖掘:用于分析非结构化信息的预测方法。 施普林格。
介绍性很强的文字,介绍了一些一般性问题。
曼宁(1999)。统计自然语言处理的基础。麻省理工学院出版社。
这是我已经阅读过的关于该主题的最好的书。它写得很好,很清楚,以实践友好的方式深入了理论。首先进行一般性介绍,然后再回顾一些最常用的方法和算法。如果您只需要选择一本书,那么我推荐这本书。
您还可以轻松找到有关自然语言处理和文本挖掘的多本书籍,这些书籍着重于使用R(tm库)或Python(nltk库)。
这可能并不是您要查找的内容的正确点,但是Jeffrey Friedl的Mastering Regular Expressions是学习如何使用正则表达式解析文本的重要资料。他没有讨论建模技术,但是,从应用正则表达式的过程中得出的结论来看,您可以应用各种标准建模方法。
我不时地回想一本书,是肖洛姆·魏斯(Sholom Weiss)撰写的《文本挖掘:预测方法》。它有许多解决问题的想法,这些想法对我很有用,因为有时文本挖掘涉及尝试不同的事情-全局字典与本地字典,要保留的功能数量等。我发现这本书是一个很好的想法产生者。它还有案例研究。
我建议位于http://www.nltk.org/的 NLP 是免费的,并与python中的NLTK结合使用。祝一切顺利