将Vowpal Wabbit用于NER


9

Vowpal Wabbit(VW)显然通过SEARN支持序列标记功能。问题是我无法在任何地方找到带有说明和一些示例的详细参数列表。我能找到的最好的例子是Zinkov的博客文章,其中有一个非常简短的例子。该主wiki页面几乎没有提到SEARN。

在签出的源代码中,我找到了带有一些NER示例数据的演示文件夹。不幸的是,运行所有测试的脚本没有显示如何在此数据上运行。至少了解一下期望的格式是足够有用的:与标准VW数据格式几乎相同,除了条目之间用空白行分隔(这很重要)。

我目前的理解是运行以下命令:

cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw

哪里

--searn 25 -NER标签总数(?)

--searn_task sequence -序列标记任务(?)

--searn_passes_per_policy 2 -不知道它做什么

其他参数是大众的标准配置,无需其他说明。也许还有更多特定于SEARN的参数?它们的重要性和影响是什么?如何调整它们?有什么经验法则吗?

任何指向示例的指针将不胜感激。

Answers:


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.