2
使用LSTM处理语言建模任务中的未知单词
对于自然语言处理(NLP)任务,通常使用word2vec向量作为单词的嵌入。但是,可能有很多未知单词未被word2vec向量捕获,这仅仅是因为这些单词在训练数据中的出现频率不够高(许多实现在将单词添加到词汇表之前使用最少的计数)。尤其是来自Twitter的文本,尤其是单词拼写错误的情况。 在对NLP任务进行建模(例如使用长短期(LSTM)网络进行情感预测)时,如何处理这些未知单词?我看到两个选择: 在word2vec词典中添加“未知单词”标记。 删除这些未知单词,以使LSTM甚至不知道单词在句子中。 处理这些单词的首选方式是什么?