是否存在与降维相反的方法?


9

我是机器学习领域的新手,但是我在信号处理方面做得很出色。请让我知道这个问题是否贴错标签。

我有至少由三个变量定义的二维数据,其高度非线性的建模方式太复杂而无法模拟。

在使用PCA和ICA之类的方法(来自python库Scikit-Learn)中从数据中提取两个主要成分方面,我取得了不同程度的成功,但似乎这些方法(或至少这些方法的实现)受到限制从数据中提取尽可能多的分量,例如,从2D点云中提取2个分量。

在绘制数据时,训练有素的眼睛清楚地看到存在三种不同的线性趋势,这三种色线显示了方向。

数据图

使用PCA时,主组件与一条色线对齐,另一条与色线对齐,如预期的那样。使用ICA时,第一个组件与蓝线对齐,第二个组件在红色和绿色组件之间。我正在寻找一种可以重现信号中所有三个成分的工具。

编辑,其他信息:我在这里工作在较大相位平面的一小部分中。在这个很小的子集中,每个输入变量在平面上都会产生线性变化,但是这种变化的方向和幅度是非线性的,并且取决于我正在工作的较大平面上的确切位置。在某些地方,其中两个变量可以退化:它们在同一方向上产生变化。例如,假设模型取决于X,Y和Z。变量X的变化将产生沿蓝线的变化;Y引起沿绿线的变化;Z,沿着红色的。


3
如果我理解正确,那么您正在寻找的概念就是嵌入的。查找内核方法,尤其是内核PCA
Emre,2015年

1
我对此不确定,因此我不会将其发布为答案。在神经网络类型的模型中,您可以保持隐藏层维数>输入层维数。然后,您可以将隐藏层用作另一个网络/模型的输入。但是,这样做需要大量数据。
Azrael15年

当您说由至少三个变量定义的二维数据时,您在什么意义上使用术语“变量”?类是合适的替代品吗?值得注意的是,PCA会从数据中提取最大的变体维,这不一定是要应用的最有区别的变换。您是否看过集群?
image_doctor

您是否了解模型的非线性?尽管它可能太复杂而无法模拟,但要知道它最多由3次多项式组成,这会极大地限制要素工程,例如,您可以添加所有3次多项式,然后将其PCA还原为3D。
AN6U5

我与一位统计学家的朋友讨论过,他建议在我的数据导数上使用内核PCA ,因为我正在寻找斜率。将微分算作“特征工程”吗?
PhilMacKay

Answers:


8

简短的答案是肯定的。

本质上,您将执行某种功能设计。这意味着通常需要构造数据的一系列功能:

ϕj(x):RpR ,  j=1,...,K

串在一起,定义了长度为的变换数据矢量。ϕ(x)K

有许多方法可以做到这一点,无论好坏。您可能要查找类似以下的术语:

  1. 花键和广义加性模型。
  2. 内核技巧(如何创建模型,其中)。K
  3. 功能工程(手动类型,例如,在数据中添加列)。x2
  4. 深度学习,表示学习

您可能会从各种各样的技术中猜到,这是一个很大的领域。毋庸置疑,但是必须注意避免过度拟合。

本文从深度学习的角度探讨了代表性学习:回顾和新观点,探讨了围绕使一组特定功能“良好”的问题。


-2

我想您正在寻找可以提取新功能的功能。最能代表数据集的特征。如果是这种情况,那么我们将这种方法称为“特征提取”。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.