信息检索与信息提取之间的关系和区别?


11

来自维基百科

信息检索是从信息资源集合中获取与信息需求相关的信息资源的活动。搜索可以基于元数据或全文索引。

来自维基百科

信息提取(IE)是从非结构化和/或半结构化的机器可读文档中自动提取结构化信息的任务。在大多数情况下,此活动涉及通过自然语言处理(NLP)来处理人类语言文本。多媒体文档处理中的最新活动,例如从图像/音频/视频中自动注释和内容提取,可以看作是信息提取。

信息检索与信息提取之间的关系和区别是什么?

谢谢!

Answers:



7

http://gate.ac.uk/ie/给出了一个非常简洁的区别:

信息提取不是信息检索:信息提取与传统技术的不同之处在于,它不会从集合中恢复希望与关键字相关的文档子集,而该子集是基于关键字搜索(可能由词库增强)的。相反,目标是从文档(可能以多种语言)中提取有关事件,实体或关系的预定类型的重要事实。然后,通常将这些事实自动输入到数据库中,然后可以将其用于分析趋势数据,给出自然语言摘要或仅用于在线访问。

以图形方式表示:

信息检索获取相关文档集:

在此处输入图片说明

信息提取从文档中提取事实:

在此处输入图片说明


2

从建模的角度来看,信息检索是一个基于多个学科的深层领域,包括统计学,数学,语言学,人工智能以及现在的数据科学。实际上,将这些模型应用于语料库中的文本以发现数据中的模式。IR模型不仅在用法上重叠,而且可以与其他模型(例如k均值或k最近邻居模型)“配对”,然后可以从计算语言学(例如LDA / LDI和主题建模然后,最终游戏是对该发现进行某种形式的信息可视化-在对工作进行排名,聚类和聚合之后。信息检索似乎是一门神秘的学科,但是我们付出了巨大的努力,对此深表感谢,正在开放该区域,以更深入地了解每个模型以及模型之间的交互。我将“关于信息概念,检索和服务的综合讲座”系列作为探究IR基础的最佳场所。

虽然我没有将IR和信息提取完全分开,但可能是IE的一个子集,即概念级别提取,确实将IR模式与基于AI的推理规则一起用于提取相关本体。这些关系的图形性质通过OWL和RDF中的本体建模以及图形数据库得到了增强,它们允许不太严格或不严格的一组关系建模,并允许更多的表面关系,而不是被控制。动态增长信息提取的能力使研究人员非常感兴趣。

IR和IE都在我们自己的重要“当下实体”中发挥作用-有些被称为“动态本体”-有些是Palantir-我们需要这些重要实体的模式,模型,模拟和可视化才能在改变新的信息来源和改变现有信息的面孔。概念,关系,定义,模式和本体建模必须灵活并且其可视化效果相同。在信息提取和推理领域中,像Watson这样的AI引擎的繁重举动已成为IE和坦率的IR领域的焦点。自然语言处理和机器学习的普遍性也引起人们对IR和IE模型和引擎的关注。IR模型对搜索和SEO以及语义Web建模的影响是“


1

信息检索是关于返回与特定查询或感兴趣领域相关的信息。请注意,此信息也可以采用常规文档的形式,请确保足够的搜索引擎是此类任务的显着示例。我要说,对于信息检索而言,最重要的实体是文档/信息的初始集合以及指定“搜索内容”的查询。

另一方面,信息提取更多地是关于从一组文档或信息中提取(或推断)常识(或关系)。请注意,这里所有文档的内容都可以看作是从中提取知识的完整数据集。当然,在这种情况下,您也可以以某种方式指定要提取的内容,但它更多地是关于属性/关系,而不是特定的主题/主题。属性是特定于域的,而通常关系涉及更通用的场景。

同样,使用搜索引擎,您要求获得的网站最有可能包含有关该特定主题的信息。这是信息检索的一个示例。

例如,对于信息提取,您可以要求提取出现在文档集中的所有城市名称或电子邮件地址。您甚至可以更加通用,只要求提取知识即可。如您所见,这确实是通用的,但是可以通过例如为文本的每个有效句子获取subject-action-object形式的三元组来实现(这最适合自然语言文本)。

如果您有兴趣,可以在《人工智能:现代方法》一书的《自然语言处理》一章中详细解释这些(以及其他)主题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.