假设我想学习一个分类器,该分类器将数字向量作为输入,并给类标签作为输出。我的训练数据由大量输入输出对组成。
但是,当我要测试一些新数据时,该数据通常仅部分完成。例如,如果输入向量的长度为100,则可能仅给30个元素提供值,其余的为“未知”。
例如,考虑在已知图像部分被遮挡的情况下进行图像识别。或考虑已知部分数据已损坏的一般意义上的分类。在所有情况下,我都确切知道数据向量中的哪些元素是未知部分。
我想知道如何学习适用于此类数据的分类器?我可以将“未知”元素设置为随机数,但是鉴于已知元素通常比已知元素更多,所以这听起来不是一个好的解决方案。或者,我可以将训练数据中的元素随机更改为“未知”,并使用这些而不是完整的数据进行训练,但这可能需要详尽地采样已知和未知元素的所有组合。
我特别在考虑神经网络,但是我对其他分类器持开放态度。
有任何想法吗?谢谢!
en.m.wikipedia.org/wiki/Missing_data可能是一个起点。
—
Hatshepsut's
我认为半监督学习更多地是在训练数据未完全标记的情况下。就我而言,我所有的训练数据都被标记了,但是测试数据的各个部分都是“未知的”。
—
Karnivaurus
阶梯网络的半监督学习:github.com/CuriousAI/ladder
—
itdxer 2016年