如何用Genia Corpus训练Stanford Parser?
我在为Stanford Parser创建新模型时遇到一些问题。 我还从斯坦福下载了最新版本:http : //nlp.stanford.edu/software/lex-parser.shtml 在这里,Genia Corpus有2种格式,即xml和ptb(Penn Treebank)。 Standford Parser可以训练ptd文件;然后我下载了Genia Corpus,因为我想使用生物医学文本: http://categorizer.tmit.bme.hu/~illes/genia_ptb/ (链接不再可用) (genia_ptb.tar.gz) 然后,我有一个简短的Main类来获取一个生物医学句子的依存关系表示形式: String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb"; Treebank tr = op.tlpParams.diskTreebank(); tr.loadPath(treebankPath); LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op); 我尝试了不同的方法,但始终得到相同的结果。 我在最后一行有一个错误。这是我的输出: Currently Fri Jun 01 15:02:57 CEST 2012 Options parameters: useUnknownWordSignatures 2 smoothInUnknownsThreshold 100 smartMutation false useUnicodeType false unknownSuffixSize 1 unknownPrefixSize 1 flexiTag …