Questions tagged «feature-engineering»

使用数据领域知识来创建可改善机器学习算法的功能的过程

3
何时使用One Hot Encoding,LabelEncoder和DictVectorizo​​r?
我已经使用分类数据构建模型已有一段时间了,在这种情况下,我基本上默认使用scikit-learn的LabelEncoder函数在构建模型之前转换此数据。 我了解两者之间的区别OHE,LabelEncoder以及DictVectorizor它们在处理数据方面的区别,但是对我来说不清楚的是,您何时可能会选择将一种技术应用于另一种技术。 是否存在某些算法或情况相对于其他算法有优缺点?

6
将诸如月份和小时之类的功能编码为分类或数字?
在机器学习模型中将诸如月份和小时之类的特征编码为因子或数字更好吗? 一方面,我认为数字编码可能是合理的,因为时间是向前发展的过程(第五个月紧随其后的是第六个月),但另一方面,我认为由于周期性的原因,分类编码可能更合理年和天(第12个月后跟着第一个月)。 是否有通用的解决方案或约定?



3
如何对未知特征执行特征工程?
我正在参加kaggle比赛。数据集包含约100个要素,所有要素都是未知的(就其实际表示而言)。基本上,它们只是数字。 人们正在对这些功能执行许多功能工程。我想知道一个人究竟能对未知的特征执行特征工程吗?有人可以帮助我理解这一点,以及一些有关如何对未知特征执行特征工程的提示吗?

1
处理经度/纬度特征的方法
已关闭。这个问题需要细节或说明。它当前不接受答案。 想改善这个问题吗?添加详细信息并通过编辑此帖子来澄清问题。 3年前关闭。 我正在研究具有25个功能的虚构数据集。其中两个功能是地点的纬度和经度,其他功能是pH值,海拔高度,windSpeed等变化范围的功能。我可以对其他要素进行归一化,但是如何处理纬度/经度要素? 编辑:这是预测农业产量的问题。我认为纬度/经度非常重要,因为位置在预测中至关重要,因此造成了困境。

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
为什么我们将偏斜的数据转换为正态分布
我正在针对Kaggle(人类模拟的房价内核:高级回归技术)上的房价竞争解决方案,遇到了以下部分: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float))) skewed = skewed[skewed > 0.75] skewed = skewed.index train_df_munged[skewed] = np.log1p(train_df_munged[skewed]) test_df_munged[skewed] = np.log1p(test_df_munged[skewed]) 我不确定将偏斜的分布转换为正态分布的需求。请有人可以详细解释一下: 为什么在这里这样做?或这有什么帮助? 这与功能扩展有何不同? 这是功能设计的必要步骤吗?如果我跳过此步骤,可能会发生什么?


4
这是要素工程的良好做法吗?
我有一个有关功能工程的实际问题...说我想通过逻辑回归来预测房价,并使用了包括邮政编码在内的许多功能。然后,通过检查功能的重要性,我意识到zip是一个很好的功能,因此我决定基于zip添加更多功能-例如,我去了人口普查局,并获得了平均收入,人口,学校数量和数量每个邮局的医院。有了这四个新功能,我现在发现模型性能更好。因此,我添加了更多与zip相关的功能...这个循环一直在进行。最终,模型将由这些与zip相关的功能所主导,对吗? 我的问题: 首先做这些有意义吗? 如果是,我怎么知道什么时候该停止这个周期? 如果没有,为什么不呢?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.