我想根据新闻报道建立犯罪指数和政治动荡指数


17

我有一个辅助项目,在这里我可以爬行我所在国家的本地新闻网站,并希望建立犯罪指数和政治动荡指数。我已经介绍了该项目的信息检索部分。我的计划是:

  • 无监督主题提取。
  • 近重复检测。
  • 受监督的分类和事件级别(犯罪/政治-高/中/低)。

我将使用python和sklearn,并且已经研究了可用于这些任务的算法。我认为2.可能会使我联想到一个故事的相关性:有关某个故事或主题的新闻报道越多,当天的相关性就越高。

我的下一步是根据我拥有的功能构建每月,每周和每天的索引(全国范围内和每个城市),由于“不稳定敏感性”可能会随着时间的推移而增加,我在这里有点迷失了。我的意思是,去年重大动荡事件的指数可能小于今年的指数。另外,是否使用0-100的固定刻度。

稍后,我希望能够以此为基础来预测事件,例如,过去几周的事件接连是否导致重大事件。但是现在,我将很高兴让分类生效并建立索引模型。

我将不胜感激任何指向论文,相关阅读或思想的指针。谢谢。

PD:很抱歉,这个问题不属于这里。

更新:我还没有“做到这一点”,但是最近有一个新闻,关于一群科学家正在使用新闻档案系统预测事件的系统中发表了一篇新闻,并发表了相关论文《挖掘网络来预测未来事件》(PDF )。


对于技术部分(工具),我将推荐两本书作为O'Reiley的最佳参考:集体智慧(带有Python代码),机器学习(带有R代码)...可以捕捉与您的主题相关的主题。下一步可能是Manning网站...对于方法论部分,我建议在LinkedIn上使用Semantic Web组。
Radu Marius Florin

超级很喜欢这个问题。让我们保持更新!!

Answers:


1

考虑GINI分数的变化。

已归一化,输出范围为0到1。

编辑:

为什么GINI很“酷”或至少可能合适:

它衡量不平等或不平等。它用作无标度度量来表征无标度网络(包括无限和随机网络)的异构性。它在构建CART树时很有用,因为它是对特定数据拆分的拆分能力的度量。

由于其范围:

  • 舍入错误更少。远离1.0的范围往往会遇到数字问题。
  • 它是人类可读的,并且更易于人类使用。人类对事物的掌握比对数十亿事物的掌握更为具体。

由于已标准化:

  • 分数的比较是有意义的,一个国家的0.9意味着相对不均匀的水平与其他任何国家的0.9相同。
  • 相对于Lorenz曲线对其进行了归一化,以实现完美的均匀性,因此这些值是关注值分布与Lorenz曲线之间关系的相关指标。

参考文献:


4
欢迎使用该站点@EngrStudent。您是否愿意多说一些有关GINI系数的信息,以及为什么它是正确的答案?由于您是这里的新手并开始有所作为,因此您可能需要阅读我们的FAQ,其中包含有关该网站的大量信息。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.