Vowpal Wabbit(VW)显然通过SEARN支持序列标记功能。问题是我无法在任何地方找到带有说明和一些示例的详细参数列表。我能找到的最好的例子是Zinkov的博客文章,其中有一个非常简短的例子。该主wiki页面几乎没有提到SEARN。
在签出的源代码中,我找到了带有一些NER示例数据的演示文件夹。不幸的是,运行所有测试的脚本没有显示如何在此数据上运行。至少了解一下期望的格式是足够有用的:与标准VW数据格式几乎相同,除了条目之间用空白行分隔(这很重要)。
我目前的理解是运行以下命令:
cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw
哪里
--searn 25
-NER标签总数(?)
--searn_task sequence
-序列标记任务(?)
--searn_passes_per_policy 2
-不知道它做什么
其他参数是大众的标准配置,无需其他说明。也许还有更多特定于SEARN的参数?它们的重要性和影响是什么?如何调整它们?有什么经验法则吗?
任何指向示例的指针将不胜感激。