我有一个辅助项目,在这里我可以爬行我所在国家的本地新闻网站,并希望建立犯罪指数和政治动荡指数。我已经介绍了该项目的信息检索部分。我的计划是:
- 无监督主题提取。
- 近重复检测。
- 受监督的分类和事件级别(犯罪/政治-高/中/低)。
我将使用python和sklearn,并且已经研究了可用于这些任务的算法。我认为2.可能会使我联想到一个故事的相关性:有关某个故事或主题的新闻报道越多,当天的相关性就越高。
我的下一步是根据我拥有的功能构建每月,每周和每天的索引(全国范围内和每个城市),由于“不稳定敏感性”可能会随着时间的推移而增加,我在这里有点迷失了。我的意思是,去年重大动荡事件的指数可能小于今年的指数。另外,是否使用0-100的固定刻度。
稍后,我希望能够以此为基础来预测事件,例如,过去几周的事件接连是否导致重大事件。但是现在,我将很高兴让分类生效并建立索引模型。
我将不胜感激任何指向论文,相关阅读或思想的指针。谢谢。
PD:很抱歉,这个问题不属于这里。
更新:我还没有“做到这一点”,但是最近有一个新闻,关于一群科学家正在使用新闻档案系统预测事件的系统中发表了一篇新闻,并发表了相关论文《挖掘网络来预测未来事件》(PDF )。
对于技术部分(工具),我将推荐两本书作为O'Reiley的最佳参考:集体智慧(带有Python代码),机器学习(带有R代码)...可以捕捉与您的主题相关的主题。下一步可能是Manning网站...对于方法论部分,我建议在LinkedIn上使用Semantic Web组。
—
Radu Marius Florin
超级很喜欢这个问题。让我们保持更新!!
—
熵