使用深度学习库从文本中提取关键字/短语


20

也许这太广泛了,但是我正在寻找有关如何在文本摘要任务中使用深度学习的参考。

我已经使用标准的词频方法和句子排序来实现文本摘要,但是我想探索使用深度学习技术来完成此任务的可能性。我还通过使用卷积神经网络(CNN)进行情感分析,在wildml.com上进行了一些实现;我想知道如何使用TensorFlow或Theano等库进行文本汇总和关键字提取。自从我开始尝试神经网络以来已经过去了大约一周的时间,我非常高兴地看到这些库的性能与我以前解决此问题的方法相比如何。

我特别在寻找一些有趣的论文和与使用这些框架进行文本汇总有关的github项目。谁能提供一些参考资料给我?

Answers:


15

谷歌研究博客应该在上下文中有用TensorFlow

在以上文章中,有对带注释的英语Gigaword数据集的引用,该数据集通常用于文本摘要。

Sutskever等人在2014年发表的题为《使用神经网络进行序列学习的序列》可能是您旅程中有意义的起点,因为事实证明,对于较短的文本,可以使用深度学习技术来端对端地学习摘要。

最后,是一个很棒的Github存储库,展示了使用TensorFlow时的文本摘要。


16

这是一个开放的研究领域,它当然取决于您解决问题的方式。如果您正在谈论多文档摘要,那么问题与您正在谈论单文档摘要的问题稍有不同。

值得简要回顾一下文献。

u /数据科学家协会提供的链接很棒,它对于单个文档中的抽象摘要任务很有用。在提取摘要上也做了一些工作,这些摘要确定了要提取的重要句子。

拉什等 Al等人有一篇关于Attention的抽象总结的不错的论文,它是基于深度学习的。

对于提取性摘要,您可以使用LSTM来构建分类器并使用标准的TensorFlow / Torch库,但是目前似乎没有任何有关使用深度学习来实现这种方法的出版物。

这是一些其他的GitHub存储库:


感谢@franciscojavierarceo我将研究上述论文。
shanky_thebearer

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.