特征生成和特征提取之间有什么区别?


Answers:


13

特征生成 -这是获取原始的非结构化数据并定义特征(即变量)以供统计分析中潜在使用的过程。例如,在文本挖掘的情况下,您可以从成千上万条文本消息(例如,SMS,电子邮件,社交网络消息等)的原始日志开始,并通过使用一定大小的低价值词(例如停用词)删除特征单词块(即n-gram)或应用其他规则。

特征提取 -生成特征后,通常有必要测试原始特征的转换并选择该潜在潜在原始特征和派生特征池的子集以供模型使用(即特征提取和选择)。测试派生值是一个常见步骤,因为数据可能包含重要信息,这些信息具有非线性模式或与您的结果之间的关系,因此,数据元素的重要性仅在其转换状态下才可见(例如,高阶导数)。使用过多的特征可能会导致多重共线性或混淆统计模型,而提取最少量的特征以适合您的分析目的,则遵循简约性原则。

以这种方式增强要素空间通常是对图像或其他数据对象进行分类的必要步骤,因为原始要素空间通常填充有大量的非结构化且不相关的数据,这些数据构成了范式中通常称为“噪声”的部分“信号”和“噪声”的含义(也就是说,某些数据具有预测价值,而其他数据则没有)。通过增强特征空间,您可以更好地识别分析中具有预测价值或其他价值的重要数据(即“信号”),同时消除混淆信息(即“噪声”)。


2
好答案!(+1)
Aleksandr Blekh

1
这是我的荣幸!
Aleksandr Blekh

谢谢..有没有执行特征空间丰富化的方法?
莎莎·普里亚

当然。有许多这样的方法。例如,Gabor滤波器是一种通带滤波器边缘检测算法,通常用于面部识别和纹理分类中的特征生成。这可以与分类算法(例如支持向量机)结合使用。
Hack-R

我可以将其用于图像分类中的特征丰富吗?
Saratha Priya 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.