通用数据集的数据增强技术?


21

在许多机器学习应用程序中,所谓的数据增强方法已允许构建更好的模型。例如,假设训练集包含张猫和狗的图像。通过旋转,镜像,调整对比度等,可以从原始图像生成其他图像。100

对于图像,数据扩充相对简单。但是,假设(例如)一个训练集包含样本和代表不同事物的数百个连续变量。数据扩充似乎不再那么直观。在这种情况下该怎么办?100


2
我认为某些方法(如PCA或AE)对于数据增强仍然很直观。第一种方法是应用PCA并保留前k个特征值并根据分布,高斯等随机设置kn个特征值。如果另一种方法使用自动编码器来构造数据本身。如果隐藏单元的数量接近可见单元,则可以很好地构造自己。重建的数据可以用作数据的扩充部分。
yasin.yazici 2015年

@mmh,这是否回答了您的问题?
shf8888

@ yasin.yazici嗨。您能解释一下使用pca进行数据增强的情况吗?假设我有一个的数据,其中为要素尺寸。现在,我做PCA,发现前特征向量就足够了。在接下来的特征向量中,我应该怎么做?应该引入随机性吗?100X50503020
罗尼

有关图像数据增强技术的概述,请参见我的硕士论文,第80页
Martin Thoma

数据扩充对于图像来说非常有意义。对象的旋转图像仍然是对象的图像,您需要对模型进行公开,但是您可能不一定在数据集中有这样的图像。在这种情况下,对数据扩充有何需求?我不清楚您应该这样做。
gung-恢复莫妮卡

Answers:


17

我理解这个问题涉及到特征构造和处理相对于您的观察(N << P)已经拥有+将要构造的大量特征。

特征构造

扩展@ yasin.yazici的评论,可以使用以下几种方法来扩充数据:

  • PCA
  • 自动编码
  • 转换,例如对数,幂等
  • 将连续变量分为离散类别(即,连续变量比均值高1 SD,比均值低1 SD,等等)
  • 复合变量(例如,请参见此处

我确定还有更多我想念的东西。

特征选择/降维

您可以使用诸如PCA之类的技术来降低维数(尽管在使用PCA变量来扩充数据之后可能不会)。或者,您可以使用为您执行特征选择的算法,例如套索,随机森林等。


2
您能告诉我自动编码如何用于特征构建吗?
roni

1
@roni对自动编码器的成功训练会在更高的抽象级别上产生一些数据表示形式。希望您可以在分类器中使用更有用的表示形式。
克里斯·安德森

0

我遇到了一个类似的问题,我想增加未标记的数字数据。我通过以下方式扩充了数据:(假设我有一个大小为100 * 10的数据集。)

  1. 通过对{0,1}中的值进行随机采样来创建列表,以使零的数量小于1的数量,例如,在这种情况下,0的比例为20%。因此,将有一个长度为100的0和1的列表。
  2. 将此列表用作因变量,并将其传递到smote中以生成更多数据点。(这里的烟雾将在连接数据点的边缘上生成点,这些点对应于生成的列表中的0)。
  3. 重复此过程,直到获得所需大小的数据集。

1
请不要将相同的答案发布到多个线程。如果您确实相信与在其他地方发布的答案完全可以回答另一个问题,请将该问题标记为第一个问题的重复。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.