对于自然语言处理(NLP)任务,通常使用word2vec向量作为单词的嵌入。但是,可能有很多未知单词未被word2vec向量捕获,这仅仅是因为这些单词在训练数据中的出现频率不够高(许多实现在将单词添加到词汇表之前使用最少的计数)。尤其是来自Twitter的文本,尤其是单词拼写错误的情况。
在对NLP任务进行建模(例如使用长短期(LSTM)网络进行情感预测)时,如何处理这些未知单词?我看到两个选择:
- 在word2vec词典中添加“未知单词”标记。
- 删除这些未知单词,以使LSTM甚至不知道单词在句子中。
处理这些单词的首选方式是什么?
2
我之前已经回答了类似的问题;虽然问题不是LSTM特有的,但我写的大部分内容似乎都适用:stats.stackexchange.com/questions/163005/…–
—
fnl