我正在设计一个系统,使给定的一段文本能够对其进行分类并确定上下文:
- 经过用户生成的文本段落(如评论/问题/答案)的培训
- 训练集中的每个项目都将标有。因此,例如(“类别1”,“文本段落”)
- 将有数百个类别
建立这样一个系统的最佳方法是什么?我一直在研究几个不同的选项,以下是可能的解决方案的列表。Word2Vec / NN目前是最佳解决方案吗?
- 递归神经张量网络馈送了平均Word2Vec数据
- RNTN和段落向量(https://cs.stanford.edu/~quocle/paragraph_vector.pdf)?
- 深度信仰网络中使用的TF-IDF
- TF-IDF和Logistic回归
- 单词袋和朴素贝叶斯分类
您能说明什么样的类别吗?是否需要能够处理新的类别和/或看不见的单词?有关不常用术语和看不见类别的要求将有助于系统的设计。
—
NBartley,2015年
谢谢@NBartley。看不见的单词也很有可能。输入的参数将是用户生成的内容,因此出现新的看不见的单词的可能性非常高。将定义类别,但是随着时间的推移,我们将需要扩展类别列表。谢谢
—
Shankar
您也应该查看sense2vec arxiv.org/abs/1511.06388。简而言之,就是将词嵌入与词性标记结合在一起。据报道,它通过消除同音异义词使词嵌入更加准确。有趣的是,它是否还能提高分类任务的性能。
—
wacax 2015年