统计和大数据 word-embeddings

使用LSTM处理语言建模任务中的未知单词

对于自然语言处理（NLP）任务，通常使用word2vec向量作为单词的嵌入。但是，可能有很多未知单词未被word2vec向量捕获，这仅仅是因为这些单词在训练数据中的出现频率不够高（许多实现在将单词添加到词汇表之前使用最少的计数）。尤其是来自Twitter的文本，尤其是单词拼写错误的情况。在对NLP任务进行建模（例如使用长短期（LSTM）网络进行情感预测）时，如何处理这些未知单词？我看到两个选择：在word2vec词典中添加“未知单词”标记。删除这些未知单词，以使LSTM甚至不知道单词在句子中。处理这些单词的首选方式是什么？

11 natural-language word2vec lstm word-embeddings

Questions tagged «word-embeddings»