使用R(tm包)进行文本挖掘的示例


14

tm在阅读了一位朋友的草稿后,我花了三天时间,他在那儿用UCINET探索了文本语料库,显示了文本云,两模式网络图和单值分解(带有使用Stata的图形)。我遇到了很多问题:在Mac OS X上,诸如Snowball(填充)或Rgraphviz(图形)之类的库背后存在Java问题。

可能有人点出不包 -我已经看过tmwordfishwordscores和了解NLTK -但研究,如果可能的代码,在文本数据,成功地使用tm或别的东西来分析像议会辩论和立法文件数据?我似乎在这个问题上找不到太多的东西,甚至学到的代码也更少。

我自己的项目是为期两个月的议会辩论,这些变量以CSV文件形式提供:议会会议,发言人,议会小组,口头干预文本。我希望在演讲者之间,尤其是在议会团体之间,在使用罕见和较不罕见的术语时出现分歧,例如,“安全对话”与“公民自由”对话。


Answers:


7

tm的作者,来自奥地利的Ingo Feinerer博士论文是用英语编写的。本文档的第7-10章包含tm软件包的应用程序,但其复杂性不断提高。

http://epub.wu.ac.at/1923/

第7章通过分析R-devel 2006邮件列表介绍了tm的应用。第8章显示了文本挖掘在商业上对消费者电子商务的应用。第9章是tm的一项应用,用于调查奥地利最高行政法院关于会费和税款的管辖权。[...]。第10章显示了绿野仙踪数据集上的样式和作者属性的应用程序。

阅读整个文档封面。但是请注意,该文档写于2008年,此后API进行了一些更改,例如,博士学位论文提到了tmMap()已重命名为的函数tm_map()。因此,代码示例无法按原样工作,您不能使用剪切粘贴功能来尝试它们。

你也可以去

http://tm.r-forge.r-project.org/users.html

“为了使新用户了解现有的tm应用程序,该站点旨在提供(不完整的字母顺序)tm用户列表及其评论。已知的用户范围从研究机构到公司,再到个人。”

并在该页面上搜索短语“写论文”,您会找到许多链接。我只读过一篇论文,“歌曲歌词中的自动主题检测”。很有趣,很有趣。


我认为Feinerer的论文是迄今为止对我最有帮助的文件。谢谢!
神父

5

一个不错的起点可能是网站上的出版物列表tm,例如:

每个出版物末尾的参考文献列表都包含的成功应用程序tm,您似乎正在寻找这些应用程序。有很多-尤其是如果您随后遵循参考文献的参考文献。

例如,这可能是相关的:

Feinerer I,Hornik K(2007)。“最高行政法院管辖区的文本挖掘。”在C Preisach,H Burkhardt,L Schmidt-Thieme,R Decker(编辑),“数据分析,机器学习和应用程序”(第31届Gesellschaft年度会议论文集)中Klassikation eV,2007年3月7日至9日,德国弗赖堡),“经典研究,数据分析和知识组织”。施普林格出版社。

祝好运。


感谢您的参考。但是,这些出版物的详细程度还不够,我必须阅读费纳勒的论文才能获得足够的操作方法细节tm。不过,非常感谢:)
神父。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.