我正在尝试使用CNN(卷积神经网络)对文档进行分类。短文本/句子的CNN已在许多论文中进行了研究。但是,似乎没有论文将CNN用于长文本或文档。
我的问题是文档中的功能太多。在我的数据集中,每个文档都有1000多个标记/单词。为了将每个示例提供给CNN,我使用word2vec或手套将每个文档转换成矩阵,从而得到一个大矩阵。对于每个矩阵,高度是文档的长度,宽度是单词嵌入矢量的大小。我的数据集有9000多个示例,并且训练网络需要花费大量时间(整整一周),这使得难以微调参数。
另一种特征提取方法是对每个单词使用一个热向量,但这会创建非常稀疏的矩阵。当然,这种方法比以前的方法花费更多的时间进行训练。
那么,有没有一种在不创建大型输入矩阵的情况下提取特征的更好方法?
以及如何处理可变长度的文件?当前,我添加了特殊字符串以使文档具有相同的长度,但是我认为这不是一个很好的解决方案。