Answers:
您所描述的通常是使用TF-IDF和提取摘要的简单组合来实现的。
简而言之,TF-IDF会告诉您每个文档中每个单词相对于语料库其余部分的相对重要性。此时,您对每个文档中每个单词的得分都接近其“重要性”。然后,您可以使用这些单独的单词分数,通过对每个句子中每个单词的分数求和来计算每个句子的综合分数。最后,只需将每个文档中得分最高的N个句子作为摘要。
今年早些时候,我放在一起的IPython的笔记本电脑,使用NLTK在Python中的这一个实现高潮Scikit学习:NLP的Python中略知一二。