Questions tagged «feature-extraction»

回归或类似回归的模型(如聚类,判别)中使用的变量(用于预测或说明)。使用此标签可查询有关构造此类变量或在其中选择最佳变量的问题。



6
将诸如月份和小时之类的功能编码为分类或数字?
在机器学习模型中将诸如月份和小时之类的特征编码为因子或数字更好吗? 一方面,我认为数字编码可能是合理的,因为时间是向前发展的过程(第五个月紧随其后的是第六个月),但另一方面,我认为由于周期性的原因,分类编码可能更合理年和天(第12个月后跟着第一个月)。 是否有通用的解决方案或约定?

3
输入数据的特征转换
我正在阅读有关OTTO Kaggle挑战的解决方案,并且第一位的解决方案似乎对输入数据X使用了多种转换,例如Log(X + 1),sqrt(X + 3/8)等。关于何时对各种分类器应用哪种类型的转换的一般指南? 我确实了解均值-均值和最小-最大归一化的概念。但是,对于上述转换,我的猜测是使用Log和Sqrt来压缩数据的动态范围。x轴偏移只是为了更新数据。但是,当输入不同的分类器时,作者选择对同一输入X使用不同的归一化方法。有任何想法吗?


3
如何对未知特征执行特征工程?
我正在参加kaggle比赛。数据集包含约100个要素,所有要素都是未知的(就其实际表示而言)。基本上,它们只是数字。 人们正在对这些功能执行许多功能工程。我想知道一个人究竟能对未知的特征执行特征工程吗?有人可以帮助我理解这一点,以及一些有关如何对未知特征执行特征工程的提示吗?

3
用Python提取图像特征
在我的课堂上,我必须使用两个分类器创建一个应用程序,以确定图像中的对象是多孔菌(seasponge)的示例还是其他一些对象。 但是,当我涉及python中的特征提取技术时,我完全迷失了。我的顾问说服我使用课堂上没有讲到的图像。 谁能指导我寻找有意义的文档或阅读或提出建议的方法?

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
如何选择神经网络的特征?
我知道这个问题尚无明确答案,但让我们假设我有一个庞大的神经网络,其中包含大量数据,并且我想在输入中添加新功能。“最佳”方法是使用新功能测试网络并查看结果,但是有没有方法可以测试该功能是否异常有用?像相关度量(http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf)等?

5
特征选择与特征提取。什么时候使用?
特征提取和特征选择从本质上减少了数据的维数,但是如果我对的话,特征提取还使数据更可分离。 哪种技术会比其他技术更受青睐?何时使用? 我当时在想,因为特征选择不会修改原始数据及其属性,所以我假设在要培训的特征不变的情况下很重要,因此您将使用特征选择。但是我无法想象你为什么想要这样的东西。

3
为什么我们将偏斜的数据转换为正态分布
我正在针对Kaggle(人类模拟的房价内核:高级回归技术)上的房价竞争解决方案,遇到了以下部分: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下: 为什么在这里这样做?或这有什么帮助? 这与功能扩展有何不同? 这是功能设计的必要步骤吗?如果我跳过此步骤,可能会发生什么?

2
在NLP的分类过程中,解析树通常使用哪些功能?
我正在探索不同类型的解析树结构。两种广为人知的解析树结构是:a)基于选区的解析树和b)基于依赖关系的解析树结构。 我可以使用Stanford NLP包生成两种类型的解析树结构。但是,我不确定如何将这些树结构用于分类任务。 例如,如果我想进行情感分析并将文本分类为肯定和否定类别,那么对于我的分类任务,我可以从解析树结构中得出哪些特征?


3
NER的无监督功能学习
我已经利用CRF算法实现了NER系统,其手工制作的功能给出了很好的结果。问题是我使用了许多不同的功能,包括POS标签和引理。 现在,我想针对不同的语言制作相同的NER。这里的问题是我不能使用POS标签和引理。我开始阅读有关深度学习和无监督特征学习的文章。 我的问题是: 是否可以使用CRF算法进行无监督特征学习的方法?有没有人尝试过并获得良好的结果?是否有任何有关此问题的文章或教程? 我仍然不完全了解这种功能创建方式,因此,我不想花很多时间来解决不起作用的问题。因此,任何信息都将真正有帮助。现在,基于深度学习创建整个NER系统还有些困难。

3
GPS坐标(纬度和经度)可以用作线性模型的特征吗?
我的数据集包含许多功能,其中包括GPS坐标(纬度和经度)。我想使用这些数据集来探讨以下问题:(1)计算ETA以在起点和终点之间行驶;(2)估算特定点的犯罪数量。 我想使用线性回归模型。但是,我可以直接在线性模型中使用这些GPS坐标吗? 纬度和经度不具有序数属性,例如与人的年龄无关。例如,两个点(40.805996,-96.681473)和(41.226682,-95.986587)似乎没有任何有意义的排序。它们只是空间中的点。我当时想用分类的美国邮政编码替换它们,然后进行一键编码,但这会导致很多变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.