4
如何用元数据注释文本文档?
拥有大量文本文档(自然语言,非结构化),用一些语义元数据注释它们的可能方法是什么?例如,考虑一个简短的文档: I saw the company's manager last day. 为了能够从中提取信息,必须使用附加数据对其进行注释,以减少歧义。查找此类元数据的过程不成问题,因此假定它是手动完成的。问题是如何以一种可以更方便/有效地进行进一步分析的方式存储这些数据? 一种可能的方法是使用XML标记(请参见下文),但似乎太冗长了,也许有更好的方法/准则将这种元数据存储在文本文档中。 <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.