训练神经网络时有多少训练示例太少了?


14

我是一个初学者,试图整理我的第一个项目。我有一个歌曲分类项目,但是由于要手动标记,因此我只能合理地组合大约1000首歌曲或60个小时的音乐。

我将按几个班级进行分类,因此一个班级可能在训练集中只有50-100首歌曲-这似乎太少了!是否有一般的经验法则来训练一个神经网络需要多少数据才能发挥作用?

编辑:我正在考虑使用香草LSTM。输入要素的尺寸为39,输出尺寸为6,我对隐藏层尺寸的首次尝试将是100。


2
这并不是真正可行的方法,因为并非所有任务都很容易,并且不同的网络体系结构和超参数选择将以不同的方式改善/破坏不同的模型。
Sycorax说恢复莫妮卡

至少,您需要指定网络结构以及要训练的链路数量。
gung-恢复莫妮卡

Answers:


16

这实际上取决于您的数据集和网络体系结构。我已经读过的一条经验法则(2)是每类数千个样本,以使神经网络开始表现出色。

在实践中,人们尝试观察。在训练集少于1000个样本的情况下,发现表现出良好结果的研究并不罕见。


大致评估拥有更多训练样本可能在多大程度上有利的一种好方法是根据训练集的大小来绘制神经网络的性能,例如(1):

在此处输入图片说明


  • (1)Dernoncourt,Franck,Ji Young Lee,Ozlem Uzuner和Peter Szolovits。“ 使用递归神经网络取消对患者笔记的标识 ” arXiv预印本arXiv:1606.03475(2016)。
  • (2)齐雷桑(Cireşan),丹·C(Dan C.),乌里·迈耶(Ueli Meier)和尤尔根·施密德(JürgenSchmidhuber)。“通过深度神经网络对拉丁和汉字进行转移学习。” 在2012年国际神经网络联合会议(IJCNN),第1-6页。IEEE,2012年。https://scholar.google.com/scholar cluster = 7452424507909578812 &hl = zh-CN as_sdt = 0,22http://people.idsia.ch/~ciresan/data/ijcnn2012_v9.pdf

    对于每个班级有几千个样本的分类任务,(无监督或无监督)预训练的好处很难证明。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.