tm
在阅读了一位朋友的草稿后,我花了三天时间,他在那儿用UCINET探索了文本语料库,显示了文本云,两模式网络图和单值分解(带有使用Stata的图形)。我遇到了很多问题:在Mac OS X上,诸如Snowball(填充)或Rgraphviz(图形)之类的库背后存在Java问题。
可能有人点出不包 -我已经看过tm
,wordfish
并wordscores
和了解NLTK -但研究,如果可能的代码,在文本数据,成功地使用tm
或别的东西来分析像议会辩论和立法文件数据?我似乎在这个问题上找不到太多的东西,甚至学到的代码也更少。
我自己的项目是为期两个月的议会辩论,这些变量以CSV文件形式提供:议会会议,发言人,议会小组,口头干预文本。我希望在演讲者之间,尤其是在议会团体之间,在使用罕见和较不罕见的术语时出现分歧,例如,“安全对话”与“公民自由”对话。