我的数据集由矢量序列组成。每个向量都有50个实值维。序列中载体的数量为3-5至10-15。换句话说,序列的长度不是固定的。
一些相当数量的序列(不是向量!)用类标签注释。我的任务是学习给定向量序列的分类器,计算整个序列的类标签。
我无法说出数据的确切性质,但是序列的性质不是暂时的。但是,如果不更改标签(),则向量不能与向量互换。换句话说,向量的顺序很重要。向量本身是可比较的,例如,计算点积并使用此相似度值是有意义的。
我的问题是:什么可以帮助分类此类数据的工具/算法?
更新:数据具有这样的属性,即一个或很少的向量会强烈影响类标签。
可能的解决方案:经过一些研究,看起来递归神经网络(RNN)非常自然。总体思路是选择一个上下文大小,连接单词向量,进行最大池化并通过经典NN进行馈送。在句子中每个可能的上下文窗口位置处,构建一个特征向量。例如,使用最大池构建最终特征向量。进行反向传播以调整网络参数。我已经取得了一些积极的成果(GPU是必须的)。