拥有大量文本文档(自然语言,非结构化),用一些语义元数据注释它们的可能方法是什么?例如,考虑一个简短的文档:
I saw the company's manager last day.
为了能够从中提取信息,必须使用附加数据对其进行注释,以减少歧义。查找此类元数据的过程不成问题,因此假定它是手动完成的。问题是如何以一种可以更方便/有效地进行进一步分析的方式存储这些数据?
一种可能的方法是使用XML标记(请参见下文),但似乎太冗长了,也许有更好的方法/准则将这种元数据存储在文本文档中。
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.