在许多机器学习应用程序中,所谓的数据增强方法已允许构建更好的模型。例如,假设训练集包含张猫和狗的图像。通过旋转,镜像,调整对比度等,可以从原始图像生成其他图像。
对于图像,数据扩充相对简单。但是,假设(例如)一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办?
2
我认为某些方法(如PCA或AE)对于数据增强仍然很直观。第一种方法是应用PCA并保留前k个特征值并根据分布,高斯等随机设置kn个特征值。如果另一种方法使用自动编码器来构造数据本身。如果隐藏单元的数量接近可见单元,则可以很好地构造自己。重建的数据可以用作数据的扩充部分。
—
yasin.yazici 2015年
@mmh,这是否回答了您的问题?
—
shf8888
@ yasin.yazici嗨。您能解释一下使用pca进行数据增强的情况吗?假设我有一个的数据,其中为要素尺寸。现在,我做PCA,发现前特征向量就足够了。在接下来的特征向量中,我应该怎么做?应该引入随机性吗?
—
罗尼
有关图像数据增强技术的概述,请参见我的硕士论文,第80页。
—
Martin Thoma
数据扩充对于图像来说非常有意义。对象的旋转图像仍然是对象的图像,您需要对模型进行公开,但是您可能不一定在数据集中有这样的图像。在这种情况下,对数据扩充有何需求?我不清楚您应该这样做。
—
gung-恢复莫妮卡