1
识别模糊记号序列中的语法
我有一些文本文档,其中主要包含项目列表。 每个项目都是一组不同名称的多个标记:名字,姓氏,出生日期,电话号码,城市,职业等。标记是一组单词。 项目可以位于多行上。 文档中的项目具有大致相同的令牌语法,但不一定必须完全相同。 它们可能是项目之间以及项目内部的更多/更少标记。 FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation 目的是识别所使用的语法,例如 Occupation City 最后找出所有项目,甚至认为它们不完全匹配。 为了简短易懂,让我们改用一些别名A,B,C,D ...来指定这些标记类型。 例如 A B C D F A B C …