Questions tagged «feature-construction»

特征工程是使用数据的领域知识为机器学习模型创建特征的过程。此标记适用于与功能工程有关的理论和实践问题,但不包括要求代码的问题,这些问题在CrossValidated上不合时宜。

6
分解类别变量具有多个级别的原则方法?
有哪些技术可用于将多个类别折叠(或合并)成几个类别,以便在统计模型中将它们用作输入(预测变量)? 考虑像大学生专业这样的变量(由本科生选择的学科)。它是无序的和绝对的,但它可能具有许多不同的层次。假设我想在回归模型中使用major作为预测变量。 按原样使用这些级别进行建模会导致各种问题,因为存在的问题太多了。使用它们会丢弃很多统计精度,并且结果难以解释。我们很少对特定专业感兴趣-我们更可能对广泛的专业类别(子组)感兴趣。但是,并不总是很清楚如何将这些级别划分为这些更高级别的类别,或者甚至要使用多少个更高级别的类别。 对于典型数据,我很乐意使用因子分析,矩阵分解或离散的潜在建模技术。但是专业是互斥的类别,因此我不愿意在任何事情上利用它们的协方差。 此外,我自己并不关心主要类别。我关心产生与我的回归结果相关的更高层次的类别。在二元结果的情况下,对我而言,这建议使用诸如线性判别分析(LDA)之类的方法来生成可最大化判别性能的高级类别。但是LDA是一种受限制的技术,感觉像是肮脏的数据正在挖给我。而且,任何连续的解决方案都将难以解释。 同时,在这种情况下,基于协方差的东西(如多重对应分析(MCA))在我看来是令人怀疑的,因为互斥的虚拟变量之间存在内在的依赖关系-它们更适合用于研究多个类别变量,而不是研究多个类别变量相同的变量。 编辑:要清楚,这是关于折叠类别(不选择它们),并且类别是预测变量或自变量。事后看来,这个问题似乎是“正规化所有事物并让上帝整理出它们的合适时机”。很高兴看到这个问题对很多人都感兴趣!

2
自动编码器无法学习有意义的功能
我有50,000张图片,例如这两张图片: 它们描绘了数据图。我想从这些图像中提取特征,因此我使用了Theano(deeplearning.net)提供的自动编码器代码。 问题是,这些自动编码器似乎没有学习任何功能。我已经尝试过RBM,它是相同的。 MNIST数据集提供了不错的功能,但我的数据似乎没有任何结果。我在下面附上示例: 在MNIST上创建的过滤器: 通过对数据进行训练而创建的过滤器: 我使用了隐藏层大小和训练时期的许多不同排列方式,但结果始终相同。 为什么不起作用?为什么自动编码器不能从这些图像中提取特征? 编辑: 对于有类似问题的任何人。解决方法非常简单,原因也很愚蠢。我只是忘了重新调整RGB编码的像素值以使其浮动在0-1的范围内。 重新调整值可以解决问题。

7
如何在机器学习模型或推荐系统中表示地理或邮政编码?
我正在建立模型,我认为地理位置可能非常擅长预测目标变量。我有每个用户的邮政编码。不过,我并不完全确定将邮政编码作为模型中的预测器功能的最佳方式。尽管邮政编码是一个数字,但是无论数字升或降,它都没有任何意义。我可以对所有30,000个邮政编码进行二值化处理,然后将其包含为功能或新列(例如{user_1:{61822:1,62118:0,62444:0等}}}。但是,这似乎会增加很多模型的功能 对解决这种情况的最佳方法有何想法?

2
如何初始化过滤矩阵的元素?
我试图通过编写不依赖库的Python代码(例如Convnet或TensorFlow)来更好地理解卷积神经网络,并且我陷入了如何选择内核矩阵值的文献中。在图像上执行卷积。 我试图在下图显示CNN图层的功能图之间的步骤中了解实现细节。 根据此图: 内核矩阵内核在图像上“步进”,创建特征图,其中每个像素是内核(或滤波器矩阵)的每个权重与输入图像的相应像素值之间的所有按元素乘积的总和。 我的问题是:我们如何初始化内核(或过滤器)矩阵的权重? 在上面的演示中,它们只是1和0,但是我认为这是从图中简化的。 是否在某些预处理步骤中对这些权重进行了训练?还是由用户明确选择?

2
我们什么时候应该离散化/合并连续的独立变量/特征,什么时候不应该离散化/合并它们?
我们何时应该离散化/绑定自变量/特征,何时不应该离散化/组合? 我试图回答这个问题: 通常,我们不应该进行合并,因为合并会丢失信息。 合并实际上增加了模型的自由度,因此,合并后可能导致过度拟合。如果我们有一个“高偏差”模型,合并可能不是坏事,但是如果我们有一个“高方差”模型,则应该避免合并。 这取决于我们使用的模型。如果是线性模式,并且数据具有很多“异常值”,则装箱概率会更好。如果我们有一个树模型,那么离群值和合并将有很大的不同。 我对吗?还有什么? 我以为应该多次问这个问题,但我只能在这些帖子中找到简历 我们应该对连续变量进行分类吗? 分解一个连续的预测变量有什么好处?

5
为什么要素工程有效?
最近,我了解到,为机器学习问题找到更好解决方案的方法之一是创建功能。例如,可以通过汇总两个功能来做到这一点。 例如,我们拥有某种英雄的“攻击”和“防御”两个特征。然后,我们创建一个称为“总计”的附加功能,这是“攻击”和“防御”的总和。现在让我感到奇怪的是,即使是强硬的“攻击”和“防御”也几乎与“总数”紧密相关,我们仍然可以获得有用的信息。 这背后的数学是什么?还是我推理错了? 另外,对于像kNN这样的分类器来说,“总数”总是大于“攻击”或“防御”,这不是问题吗?因此,即使经过标准化处理,我们仍将具有包含不同范围值的特征?

2
功能工程教程
众所周知,特征工程对于机器学习极为重要,但是我发现与此领域相关的材料很少。我参加了Kaggle的几次比赛,并认为在某些情况下,好的功能甚至比好的分类器更重要。有谁知道关于功能工程的任何教程,或者这是纯粹的经验?

1
神经网络中日特征的最佳构造
在处理回归问题时,我开始考虑“星期几”功能的表示形式。我想知道哪种方法会更好: 一个特征 周一值1/7;星期二2/7 ... 7个功能:(1、0、0、0、0、0、0)为星期一;(0,1,0,0,0,0,0)for Tuesday ... 由于网络配置差异,很难对其进行衡量。(我认为其他六个功能应该反映在隐藏节点的数量上。) 所有功能的数量大约是20。我使用简单的反向学习器来学习普通的前馈神经网络。

1
什么是“功能空间”?
“特征空间”的解释是什么? 例如,当阅读有关SVM的内容时,我阅读了有关“映射到要素空间”的信息。在阅读有关CART的文章时,我阅读了有关“分区到要素空间”的信息。 我了解正在发生的事情,尤其是对于CART,但是我认为我错过了一些定义。 有“特征空间”的一般定义吗? 是否有定义可以使我更深入地了解SVM内核和/或CART?

2
使用线性SVM混合连续数据和二进制数据?
因此,我一直在使用SVM,我想知道这是否是一件好事: 我有一组连续特征(0到1)和一组分类特征,这些特征已转换为虚拟变量。在这种情况下,我将测量日期编码为一个虚拟变量: 我有3个期间的数据,并为它们保留了3个特征号: 20:21:22: 因此,根据数据来自哪个周期,将为不同的功能分配1;其他人将获得0。 SVM是否可以与此同时正常工作,或者这是一件坏事? 我使用SVMLight和线性内核。


2
最大平均差异(距离分布)
我有两个数据集(源数据和目标数据),它们遵循不同的分布。我正在使用MMD(这是一种非参数的距离分布)来计算源数据和目标数据之间的边际分布。 源数据,Xs 目标数据,Xt 适应矩阵A *投影数据,Zs = A'* Xs和Zt = A'Xt * MMD =>距离(P(Xs),P(Xt))= | 平均值(A'Xs)-平均值(A'Xt )| 这意味着:原始空间中源数据和目标数据之间的分布距离等于嵌入式空间中投影源数据和目标数据的均值之间的距离。 我对MMD的概念有疑问。 在MMD公式中,为什么可以通过计算潜在空间中的距离来测量原始空间中的分布距离? 谢谢

1
机器学习中的特征构建和规范化
可以说我想为电影M创建一个Logistic分类器。我的特征将是诸如人的年龄,性别,职业,位置之类的东西。因此,训练集将类似于: 年龄性别职业位置Like(1)/ Dislike(0) 23 M软件US 1 24 F Doctor UK 0 等等。...现在我的问题是我应该如何缩放和表示我的特征。我想过的一种方法是:将年龄划分为年龄组,因此18-25、25-35、35岁以上,性别为M,F,位置为美国,英国,其他。现在为所有这些值创建一个二进制特征,因此age将具有3个二进制特征,每个特征对应于一个年龄组,依此类推。因此,来自美国的28岁男性将被表示为010 10 100(010->年龄组25-35,10->男性,100->美国) 在这里表示功能的最佳方法是什么?另外,我在一些例子中也注意到了。sklearn的研究表明所有特征均已按某种方式进行了缩放/归一化,例如,性别由两个值分别代表,男性和女性为0.0045和-.0.0045。我不知道如何进行这样的缩放/道德化?

1
自动关键字提取:使用余弦相似度作为特征
我有一个文档项矩阵,现在我想使用一种监督学习方法(SVM,Naive Bayes等)为每个文档提取关键字。在此模型中,我已经使用了Tf-idf,Pos标签,...MMM 但是现在我想知道下一个。我有一个矩阵,两个词之间的余弦相似。CCC 是否可以将这种相似性用作模型的功能?我的想法是对长期在文档d,用平均所有条款的余弦相似的文档d足月我。这有用吗?iiiddddddiii

2
保留语义的领域不可知特征工程?
特征工程通常是机器学习的重要组成部分(在2010年赢得了KDD杯冠军的过程中被大量使用)。但是,我发现大多数功能工程技术要么 破坏基本功能的任何直观含义,或 是特定于特定领域甚至特定类型的功能。 前者的经典示例是主成分分析。在我看来,主题专家将拥有的有关功能的任何知识都将通过将这些功能转换为主要组件而被破坏。 将其与将日期转换为“月中的某天”和“星期几”的特征的简单技术进行对比。潜在的含义仍然保留在新功能中,但是显然,此特定技术仅适用于日期,不适用于任意功能。 是否有任何标准的要素工程技术体系都没有破坏基本要素的含义,同时又适用于任意领域(或至少各种各样的领域)?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.