Answers:
在大多数情况下,更多的数据通常更好。过度拟合本质上是学习训练数据中出现的虚假相关性,而不是现实世界中的虚假相关性。例如,如果您只考虑我的同事,则可能会学会将“命名为Matt”与“有胡子”相关联。它是100%有效的(,甚至!),但通常显然不正确。增加数据集的大小(例如,到整个建筑物或城市),应减少这些虚假的相关性并提高学习者的表现。
就是说,一种情况是,如果您的其他培训数据嘈杂或与您尝试预测的数据不匹配,那么更多数据就无济于事,甚至可能会受到伤害。我曾经做过一次实验,将不同的语言模型[*]插入语音激活的餐厅预订系统。我改变了培训数据的数量及其相关性:在一个极端情况下,我精心挑选了少量的人员预订表,非常适合我的应用程序。另一方面,我有一个模型,该模型是从大量经典文献中估算的,更准确的语言模型,但与应用程序的匹配性差得多。令我惊讶的是,小而相关的模型大大优于大而无关的模型。
理想情况下,一旦有了更多的训练示例,测试误差就将降低(模型差异减少,这意味着我们不太适合),但是理论上,更多数据并不总是意味着您将拥有更准确的模型,因为高偏差模型不会从更多的培训实例中受益。
高方差 –可以很好地表示训练集的模型,但是有可能过度适合嘈杂或无代表性的训练数据。
高偏差 –一种较简单的模型,通常不会过度拟合,但可能会拟合训练数据,无法捕获重要的规律性。
频谱分析将有助于分析样本的多样性,实际上,如果不添加“真实样本”(通常称为过拟合),则会在建模中学习到虚假信息。通常,如果按样本提供的信息较少,则鼓励提供更多真实的样本,以确保有用的信息可用于测试。祝好运!