Answers:
信息检索是基于查询 -你指定你所需要的信息,它是在人类理解的形式返回。
信息提取是关于构造非结构化信息的-给定某些来源,所有(相关)信息都以易于处理的形式构造。这将不必是人类可以理解的形式-只能用于计算机程序。
一些来源:
http://gate.ac.uk/ie/给出了一个非常简洁的区别:
信息提取不是信息检索:信息提取与传统技术的不同之处在于,它不会从集合中恢复希望与关键字相关的文档子集,而该子集是基于关键字搜索(可能由词库增强)的。相反,目标是从文档(可能以多种语言)中提取有关事件,实体或关系的预定类型的重要事实。然后,通常将这些事实自动输入到数据库中,然后可以将其用于分析趋势数据,给出自然语言摘要或仅用于在线访问。
以图形方式表示:
信息检索获取相关文档集:
信息提取从文档中提取事实:
从建模的角度来看,信息检索是一个基于多个学科的深层领域,包括统计学,数学,语言学,人工智能以及现在的数据科学。实际上,将这些模型应用于语料库中的文本以发现数据中的模式。IR模型不仅在用法上重叠,而且可以与其他模型(例如k均值或k最近邻居模型)“配对”,然后可以从计算语言学(例如LDA / LDI和主题建模然后,最终游戏是对该发现进行某种形式的信息可视化-在对工作进行排名,聚类和聚合之后。信息检索似乎是一门神秘的学科,但是我们付出了巨大的努力,对此深表感谢,正在开放该区域,以更深入地了解每个模型以及模型之间的交互。我将“关于信息概念,检索和服务的综合讲座”系列作为探究IR基础的最佳场所。
虽然我没有将IR和信息提取完全分开,但可能是IE的一个子集,即概念级别提取,确实将IR模式与基于AI的推理规则一起用于提取相关本体。这些关系的图形性质通过OWL和RDF中的本体建模以及图形数据库得到了增强,它们允许不太严格或不严格的一组关系建模,并允许更多的表面关系,而不是被控制。动态增长信息提取的能力使研究人员非常感兴趣。
IR和IE都在我们自己的重要“当下实体”中发挥作用-有些被称为“动态本体”-有些是Palantir-我们需要这些重要实体的模式,模型,模拟和可视化才能在改变新的信息来源和改变现有信息的面孔。概念,关系,定义,模式和本体建模必须灵活并且其可视化效果相同。在信息提取和推理领域中,像Watson这样的AI引擎的繁重举动已成为IE和坦率的IR领域的焦点。自然语言处理和机器学习的普遍性也引起人们对IR和IE模型和引擎的关注。IR模型对搜索和SEO以及语义Web建模的影响是“
信息检索是关于返回与特定查询或感兴趣领域相关的信息。请注意,此信息也可以采用常规文档的形式,请确保足够的搜索引擎是此类任务的显着示例。我要说,对于信息检索而言,最重要的实体是文档/信息的初始集合以及指定“搜索内容”的查询。
另一方面,信息提取更多地是关于从一组文档或信息中提取(或推断)常识(或关系)。请注意,这里所有文档的内容都可以看作是从中提取知识的完整数据集。当然,在这种情况下,您也可以以某种方式指定要提取的内容,但它更多地是关于属性/关系,而不是特定的主题/主题。属性是特定于域的,而通常关系涉及更通用的场景。
同样,使用搜索引擎,您要求获得的网站最有可能包含有关该特定主题的信息。这是信息检索的一个示例。
例如,对于信息提取,您可以要求提取出现在文档集中的所有城市名称或电子邮件地址。您甚至可以更加通用,只要求提取知识即可。如您所见,这确实是通用的,但是可以通过例如为文本的每个有效句子获取subject-action-object形式的三元组来实现(这最适合自然语言文本)。
如果您有兴趣,可以在《人工智能:现代方法》一书的《自然语言处理》一章中详细解释这些(以及其他)主题。