保留语义的领域不可知特征工程?


12

特征工程通常是机器学习的重要组成部分(在2010年赢得了KDD杯冠军的过程中被大量使用)。但是,我发现大多数功能工程技术要么

  • 破坏基本功能的任何直观含义,或
  • 是特定于特定领域甚至特定类型的功能。

前者的经典示例是主成分分析。在我看来,主题专家将拥有的有关功能的任何知识都将通过将这些功能转换为主要组件而被破坏。

将其与将日期转换为“月中的某天”和“星期几”的特征的简单技术进行对比。潜在的含义仍然保留在新功能中,但是显然,此特定技术仅适用于日期,不适用于任意功能。

是否有任何标准的要素工程技术体系都没有破坏基本要素的含义,同时又适用于任意领域(或至少各种各样的领域)?


2
有时可以使用PCA查找特征的直观含义,例如特征面
tdc 2012年

您能否给出(更多)示例数据的想法?如果您可以更具体地说明您的应用程序(甚至是任意示例),则将更容易给出(更准确的)答案。
2012年

1
@Dov好吧,关键是(理想情况下)我希望某些东西可以适用于任何结构化的表格数据集(具有数据点和特征的数据集)。所以这可能是销售数据,财务数据,药物研发数据,棒球数据等
迈克尔·麦高恩

Answers:


7

我知道一种分解方法(但也许还有更多...)在您描述的场景中很有用。就像2D-PCA-一种高阶分解方法,其中分解(即因子)具有一定意义。您可以在此处此处查看示例并阅读有关内容,然后尝试在此处进行操作


+请原谅我不是英语为母语的人:)
Dov 2012年

据我所知,PCA的最后一步应该是尝试找到基本componenet的含义。
jb。

5

最近使用受限玻尔兹曼机的深度学习方法在几种数据类型(音频,图像,文本)上显示出了不错的功能。

由于这些方法创建了一个生成模型,因此您通常可以从该模型生成非常好的样本。

查看Hinton的出版物。 http://www.cs.toronto.edu/~hinton/

这些方法并不完全通用(对每个数据运行相同的代码),但是底层模型通常是相似的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.