谁能告诉我特征生成的目的是什么?为什么在对图像进行分类之前需要进行特征空间丰富化?这是必要步骤吗?
有什么方法可以丰富要素空间?
谁能告诉我特征生成的目的是什么?为什么在对图像进行分类之前需要进行特征空间丰富化?这是必要步骤吗?
有什么方法可以丰富要素空间?
Answers:
特征生成 -这是获取原始的非结构化数据并定义特征(即变量)以供统计分析中潜在使用的过程。例如,在文本挖掘的情况下,您可以从成千上万条文本消息(例如,SMS,电子邮件,社交网络消息等)的原始日志开始,并通过使用一定大小的低价值词(例如停用词)删除特征单词块(即n-gram)或应用其他规则。
特征提取 -生成特征后,通常有必要测试原始特征的转换并选择该潜在潜在原始特征和派生特征池的子集以供模型使用(即特征提取和选择)。测试派生值是一个常见步骤,因为数据可能包含重要信息,这些信息具有非线性模式或与您的结果之间的关系,因此,数据元素的重要性仅在其转换状态下才可见(例如,高阶导数)。使用过多的特征可能会导致多重共线性或混淆统计模型,而提取最少量的特征以适合您的分析目的,则遵循简约性原则。
以这种方式增强要素空间通常是对图像或其他数据对象进行分类的必要步骤,因为原始要素空间通常填充有大量的非结构化且不相关的数据,这些数据构成了范式中通常称为“噪声”的部分“信号”和“噪声”的含义(也就是说,某些数据具有预测价值,而其他数据则没有)。通过增强特征空间,您可以更好地识别分析中具有预测价值或其他价值的重要数据(即“信号”),同时消除混淆信息(即“噪声”)。