Answers:
在Toros给出的答案中,
这三个(请参阅下面的项目符号)非常相似,但有一个细微的区别::(简洁易记)
特征提取和特征工程:将原始数据转换为适合建模的特征;
特征变换:对数据进行变换以提高算法的准确性;
功能选择:删除不必要的功能。
只是添加一个相同的示例,
特征提取和工程(我们可以从中提取某些东西)
特征转换(将其转换为有意义的)
特征选择(基于这些选定特征构建模型)
希望这可以帮助...
请查看他人共享的链接。他们很好...
正如Aditya所说,有3个与功能相关的术语有时会彼此混淆。我将尝试对其中每个进行简要说明:
如果唯一要实现的是现有数据集中的降维,则可以使用特征转换或特征选择方法。但是,如果您需要了解被标识为“重要”特征的物理解释,或者试图限制分析所需收集的数据量(需要所有初始的一组特征进行特征转换),那么只有功能选择才能起作用。
您可以在以下链接中找到有关“ 特征选择和降维”的更多详细信息:
我认为这是两件事
让我们从功能选择开始:
该技术用于选择能够解释大多数目标变量(与目标变量具有相关性)的特征。该测试在将模型应用于数据之前进行。
为了更好地解释它,让我们举一个例子:有10个特征和1个目标变量,有9个特征解释了90%的目标变量,有10个特征一起解释了91%的目标变量。因此1变量并没有太大的区别,因此您倾向于在建模之前将其删除(这也取决于业务)。我也可以称为预测变量重要性。
现在让我们来谈谈特征提取,
它用于无监督学习,图像轮廓提取,从文本中提取Bi-gram,从语音文本记录中提取音素。当您对数据一无所知时,就像没有数据字典一样,太多的功能意味着数据不是可理解的格式。然后,您尝试应用此技术来获得一些可以解释大部分数据的功能。特征提取涉及特征的转换,这通常是不可逆的,因为在降维过程中会丢失一些信息。
您可以对给定的数据应用特征提取以提取特征,然后针对目标变量应用特征选择以选择子集,这有助于建立具有良好结果的良好模型。
我们可以在R,Python,SPSS中实现它们。
让我知道是否需要进一步澄清。
机器学习项目成功的关键部分是要提供一系列良好的功能来进行培训。此过程称为功能工程,涉及:
•功能选择:在现有功能中选择最有用的功能进行训练。
•特征提取:将现有特征组合以产生更有用的特征(如我们前面所见,降维算法可以提供帮助)。
•通过收集新数据来创建新功能
引用:“通过SciKit-Learn,Keras和Tensorflow进行机器学习的手把手-Aurelien Geron”