功能工程教程


19

众所周知,特征工程对于机器学习极为重要,但是我发现与此领域相关的材料很少。我参加了Kaggle的几次比赛,并认为在某些情况下,好的功能甚至比好的分类器更重要。有谁知道关于功能工程的任何教程,或者这是纯粹的经验?


1
您是指特征的预处理(归一化和其他变换)还是特征选择?
MattBagg

2
@ mb3041023否,这两个步骤之前的步骤都需要将某些原始数据(如文本,图像或系列)转换为某些可用属性。

8
以我的经验,机器学习问题的很大一部分实际上是设置要解决/优化的正确问题(即特征,特征表示,选择等)。我很想看一本书,专门讨论经验特征选择和预处理,并带有许多现实生活插图(例如kaggle)。如果有人知道,请。发布。有几本专门针对数据清理/数据插补的书,但是迫切需要有关功能选择的专用实用文本。
2012年

2
看看:“特征提取:基础和应用程序”,2006年
jasonb

2
@jasonb,作者,大小,价格和链接如何,类似这样:Guyon编,特征提取:Foundations and Applications 2006,778p,$ 306
denis

Answers:


7

我会说经验-基本思想是:

  • 适应分类器的工作方式;给树带来几何问题,给kNN增大尺寸,向SVM传递间隔数据都不是一个好主意
  • 消除尽可能多的非线性;期望某些分类器在内部进行傅立叶分析是很幼稚的(即使这样做会浪费很多复杂性)
  • 使特征对所有对象通用,以便链中的某些采样不会将其淘汰
  • 检查以前的工作-通常已经对用于可视化或测试类似数据类型的转换进行了调整,以发现有趣的方面
  • 避免不稳定,优化的转换(例如PCA),这可能会导致过度拟合
  • 做很多实验

您如何定义“间隔数据”?我在Google上进行搜索,发现了许多不同的定义。
供电

您能详细说明一下PCA吗?
Daniel Velkov 2012年

x|xnearest prime|<0.3

@DanielVelkov当您在嘈杂的数据上引导PCA时,组件通常会不稳定;这促进了在整个可用集合上制作一个全局PCA的想法,这泄漏了信息,并且是破坏评估的直接方法。

@mbq如果PCA仅在训练集上运行,应该怎么办?
Daniel Velkov 2012年

1

Zheng等人撰写的一本书来自O'Reilly,名为“ 用于机器学习的特征工程 ”。

我读了这本书,它涵盖了不同类型的数据(例如,分类,文本...),并描述了随之而来的功能工程的不同方面。这包括诸如数据标准化,功能选择,文本中的tf-idf之类的事情。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.