Answers:
是的,完全有可能将无监督学习与CRF模型结合起来。特别是,我建议您探索使用word2vec功能作为CRF输入的可能性。
Word2vec训练a来区分适合给定上下文的单词和随机选择的单词。然后,可以将模型的选定权重解释为给定单词的密集矢量表示。
这些密集的向量具有吸引人的特性,即语义或句法上相似的词具有相似的向量表示形式。基本向量算法甚至揭示了单词之间一些有趣的学习关系。
例如,vector(“巴黎”)-vector(“法国”)+ vector(“意大利”)产生的矢量与vector(“罗马”)非常相似。
从较高的层次上讲,您可以认为word2vec表示形式与LDA或LSA表示形式相似,可以将稀疏输入向量转换为包含单词相似性信息的密集输出向量。
因此,LDA和LSA也是无监督特征学习的有效选项-两者都试图将单词表示为“主题”的组合并输出密集的单词表示。
Google会为英文文本分发在庞大的1000亿个单词的Google新闻数据集中预先训练的word2vec模型,但对于其他语言,则必须训练自己的模型。