从文档中提取文本的大部分信息


16

是否有关于提取部分文本的文章或讨论,其中包含有关当前文档的大部分信息。

例如,我有来自同一域的大量文档。文本的某些部分包含单个文档所讨论的关键信息。我想提取其中一些部分,并将其用作文本的摘要。是否有关于如何实现此类目标的有用文档。

如果有人可以将我指引到正确的方向,这对我应该寻找或阅读的内容会有所帮助,那么我将对自然语言处理这一领域中可能已经完成的工作有所了解。

Answers:


23

您所描述的通常是使用TF-IDF提取摘要的简单组合来实现的。

简而言之,TF-IDF会告诉您每个文档中每个单词相对于语料库其余部分的相对重要性。此时,您对每个文档中每个单词的得分都接近其“重要性”。然后,您可以使用这些单独的单词分数,通过对每个句子中每个单词的分数求和来计算每个句子的综合分数。最后,只需将每个文档中得分最高的N个句子作为摘要。

今年早些时候,我放在一起的IPython的笔记本电脑,使用NLTK在Python中的这一个实现高潮Scikit学习:NLP的Python中略知一二


2
是的,可能就是这样。我还可以在一些已经添加了信息的单词上添加其他权重。感谢您的帮助和有用的链接。
MaticDiba 2014年

那么我可以在pdf上使用它吗?:)
亚当(Adam)

是的,假设您已经使用pdftotext之类的东西从PDF中提取了纯文本,则可以在PDF的文本上使用它。
查理·格林巴克

1

许多关键字提取技术取决于以下因素:

  1. 文字语法质量
  2. 文字长度
  3. 无论您要查找单个关键字还是短语关键字等。

但一般来说,如果您的文字较长,并且想从中自动提取关键字,建议您阅读以下文章:

  1. 文字排名

  2. RAKE [快速自动关键字提取]

  3. Topica

另外,要提取不是通过上述技术获得的自定义(特殊)关键字,请查看以下帖子:

在python中使用NLTK POS标记器提取自定义关键字

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.