我想根据新闻报道建立犯罪指数和政治动荡指数

我有一个辅助项目，在这里我可以爬行我所在国家的本地新闻网站，并希望建立犯罪指数和政治动荡指数。我已经介绍了该项目的信息检索部分。我的计划是：

我将使用python和sklearn，并且已经研究了可用于这些任务的算法。我认为2.可能会使我联想到一个故事的相关性：有关某个故事或主题的新闻报道越多，当天的相关性就越高。

我的下一步是根据我拥有的功能构建每月，每周和每天的索引（全国范围内和每个城市），由于“不稳定敏感性”可能会随着时间的推移而增加，我在这里有点迷失了。我的意思是，去年重大动荡事件的指数可能小于今年的指数。另外，是否使用0-100的固定刻度。

稍后，我希望能够以此为基础来预测事件，例如，过去几周的事件接连是否导致重大事件。但是现在，我将很高兴让分类生效并建立索引模型。

我将不胜感激任何指向论文，相关阅读或思想的指针。谢谢。

PD：很抱歉，这个问题不属于这里。

更新：我还没有“做到这一点”，但是最近有一个新闻，关于一群科学家正在使用新闻档案系统预测事件的系统中发表了一篇新闻，并发表了相关论文《挖掘网络来预测未来事件》（PDF ）。

machine-learning classification text-mining

— 罗兰多·马克斯（Rolando Max）
source

对于技术部分（工具），我将推荐两本书作为O'Reiley的最佳参考：集体智慧（带有Python代码），机器学习（带有R代码）...可以捕捉与您的主题相关的主题。下一步可能是Manning网站...对于方法论部分，我建议在LinkedIn上使用Semantic Web组。

— Radu Marius Florin

超级很喜欢这个问题。让我们保持更新！！

— 熵

考虑GINI分数的变化。

已归一化，输出范围为0到1。

编辑：

为什么GINI很“酷”或至少可能合适：

它衡量不平等或不平等。它用作无标度度量来表征无标度网络（包括无限和随机网络）的异构性。它在构建CART树时很有用，因为它是对特定数据拆分的拆分能力的度量。

由于其范围：

由于已标准化：

参考文献：

— 工程师-恢复莫妮卡
source

欢迎使用该站点@EngrStudent。您是否愿意多说一些有关GINI系数的信息，以及为什么它是正确的答案？由于您是这里的新手并开始有所作为，因此您可能需要阅读我们的FAQ，其中包含有关该网站的大量信息。

— gung-恢复莫妮卡