Answers:
我推荐这些书-它们在亚马逊上也受到高度评价:
魏斯的“文本挖掘”
Konchady撰写的“文本挖掘应用程序编程”
对于软件,我推荐免费和开源的RapidMiner(带有文本插件)。
这是我的“文本挖掘过程”:
然后,您可以开始对它们进行分类的工作。kNN,SVM或朴素贝叶斯(如果适用)。
您可以在这里看到我的一系列文本挖掘视频
涵盖您提到的主题的精彩介绍文字是“信息检索简介”,该文章可在线免费全文获得。
神经网络处理大量文档的速度可能会变慢(现在也已经过时了)。
您也可以在分类器中检查“随机森林”。它非常快,缩放比例很好,不需要复杂的调整。
如果您来自编程方面,一种选择是使用Python 的自然语言工具包(NLTK)。有一本O'Reilly书,可免费获得,该书可能不那么精简,更实用的介绍为文档建立分类器。
如果您想加强统计方面的知识,Roger Levy正在进行的书《语言研究中的概率模型》可能并不难读。它是为从统计NLP技术入手的cosci / compsci研究生编写的。
首先,我可以向您推荐Manning和Schütze 所著的《统计自然语言处理的基础》。
我将使用的方法是词频分布和ngram语言模型。当您想对主题进行分类并且主题既特定又专业(带有关键字)时,第一个效果很好。当您要对书写样式等进行分类时,Ngram建模是最好的方法。
朴素贝叶斯(Naive Bayes)通常是文本分类的起点,这是多布斯(Dobbs)博士关于如何实现文本分类的文章。它也常常是文本分类的终点,因为它是如此高效并且可以很好地并行化,SpamAssassin和POPFile都使用它。