是否有在博客上执行文本分析的软件?[关闭]


8

我的公司正在寻求为过去11年的客户的Wordpress 2博客帖子创建PivotViewer可视化。但是,为此,我们需要编辑一些杂乱无章,不完整且通常较差的标签,以用作可排序的类别。我正在寻找一种工具,该工具将分析其博客条目并执行字数统计,以使我们对正在处理的内容有所了解。

理想情况下,它将具有所有这些功能:

  1. 单词黑名单(忽略)
  2. 词干
  3. 自定义同义词合并
  4. 计算所有用途
  5. 计算单词出现的帖子数。

我本以为这种文本分析是非常普遍的,但是我还没有找到在整个博客上都能做到这一点的软件。有可用的软件来做到这一点吗?


3
有趣。如有疑问,Python会支持您。
James T Snell

是的...我真的希望我不必为此而努力。
布莱恩·鲍曼

有事情可以做...我记得一个朋友分析过维基百科...明天我会去找他
Keltari 2011年

Answers:


3

您要寻找的软件可能有许多标题,例如“内容分析”“标签云”或“元标签”,还有更多诸如“文本分析”和“文本挖掘”之类的标题。

有许多用于这些目的的软件工具,包括免费的和商业的。

我没有使用此类工具的亲身经历,但是文本分析工具是一个很好的起点,其中列出了数十种此类工具,包括免费的和商业的。

另一个这样的列表是Text Analysis,Text Mining和Information Retrieval Software


我在第一个列表中进行了过滤,但是免费选项中没有一个比语言分析要多得多。尚未浏览第二个列表-我可能最终会滚动自己的列表。
布莱恩·鲍曼

2

看看RapidminerWeka

将其视为客户博客,您可能具有数据库访问权限。以纯文本格式下载所有文章,并使用上述程序之一来处理自然语言处理问题(1、2、3和5)。

用法的数量很难真正实现自动化,因为它与使用上下文自动确定单词的含义有关。


计算所有用途,而不是用户。不过,感谢您的建议。
布莱恩·鲍曼

我读错了,mybad。不过,您仍然应该查看Rapidminer或Weka进行自然语言处理。也就是说,除非该数据集是巨大的,因为这两种尝试在内存适应它
suweller

2

内容最丰富的分析软件之一是Provalis Research设计的WordStat

WordStat是QDA Miner或SimStat的文本分析模块。WordStat通过使用字典方法和许多算法探索或各种文本挖掘方法来结合内容分析方法。WordStat可以将现有的分类词典应用于新的文本语料库。它也可以用于新分类词典的开发和验证。与手动编码结合使用时,此模块可为更规则地应用编码规则提供帮助,帮助发现个人子组之间单词用法的差异,并使用KWIC(上下文中的关键字)表帮助修订现有编码。WordStat专为研究文本信息而设计,例如对开放式问题,访谈,标题,期刊文章,公开演讲,电子通信等的答复。

http://provalisresearch.com/products/content-analysis-software/




0

Zemanta会进行分析,并可以建议标签和链接。它也是一个wordpress插件。

唯一的问题:按照目前的情况,它需要手动打开以及选择和保存每个帖子。

虽然有大量的用于wordpress的自动标记插件。您应该搜索插件查找器并尝试一下。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.