Questions tagged «encoding»

6
将诸如月份和小时之类的功能编码为分类或数字?
在机器学习模型中将诸如月份和小时之类的特征编码为因子或数字更好吗? 一方面,我认为数字编码可能是合理的,因为时间是向前发展的过程(第五个月紧随其后的是第六个月),但另一方面,我认为由于周期性的原因,分类编码可能更合理年和天(第12个月后跟着第一个月)。 是否有通用的解决方案或约定?

3
变压器模型中的位置编码是什么?
我是ML的新手,这是我在这里的第一个问题,对不起,如果您的问题很傻,对不起。 我正在尝试阅读和理解本文注意,您所需要的只是其中的一幅图片: 我不知道什么是位置编码。通过听一些youtube视频,我发现它是一个嵌入词,在其中具有单词的含义和位置,并且与sin(x)sin(x)sin(x)或cos(x)cos(x)cos(x) 但我不知道它到底是什么以及它到底在做什么。所以我在这里寻求帮助。提前致谢。


1
如何使用keras处理多类分类中的字符串标签?
我是机器学习和keras的新手,现在正在使用keras处理多类图像分类问题。输入的是带标签的图像。经过一些预处理后,训练数据在Python列表中表示为: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] “狗”,“猫”和“鸟”是类标签。我认为应该使用一站式编码解决此问题,但是我对如何处理这些字符串标签不是很清楚。我已经尝试过sklearn的LabelEncoder(): encoder = LabelEncoder() trafomed_label = encoder.fit_transform(["dog", "cat", "bird"]) print(trafomed_label) 输出是[2 1 0],这与我对[[1,0,0],[0,1,0],[0,0,1]]之类的东西的期望输出不同。可以通过一些编码来完成,但是我想知道是否有某种“标准”或“传统”方式来处理它?

5
扩大seaborn热图
我corr()用原始df 创建了df。该corr()DF出来70×70,这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr(),则表格不适合屏幕,并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
大分类值的一种热门编码替代方案?
您好,数据框具有超过1600个类别的大分类值,有什么办法可以找到替代方法,使我没有超过1600列。 我在下面的有趣链接中找到了此链接http://amunategui.github.io/feature-hashing/#sourcecode 但是他们正在转换为我不想要的类/对象。我希望最终输出为数据框,以便可以使用不同的机器学习模型进行测试吗?还是有什么方法可以使用生成的矩阵来训练除Logistic回归或XGBoost之外的其他机器学习模型? 无论如何,我可以实施吗?

1
全局压缩方法和通用压缩方法有什么区别?
我知道压缩方法可以分为两个主要组: 全球 本地 第一组工作与所处理的数据无关,也就是说,它们不依赖于数据的任何特征,因此不需要在数据集的任何部分上执行任何预处理(在压缩本身之前)。另一方面,局部方法分析数据,提取通常可以提高压缩率的信息。 在阅读其中一些方法时,我注意到一元方法不是通用方法,这使我感到惊讶,因为我认为“全局性”和“通用性”是同一件事。一元方法不依赖数据的特性来产生其编码(即,它是一种全局方法),因此它应该是全局/通用的,不是吗? 我的主要问题: 通用方法和全局方法有什么区别? 这些分类不是同义词吗?

1
我应该使用多少个LSTM细胞?
是否有关于我应使用的LSTM电池的最小,最大和“合理”数量的经验法则(或实际规则)?具体来说,我与TensorFlow和property 有关的BasicLSTMCell有关num_units。 请假设我有以下定义的分类问题: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples 例如,训练示例的数量应该大于: 4*((n+1)*m + m*m)*c c单元数在哪里?我基于此:如何计算LSTM网络的参数数量?据我了解,这应该给出参数的总数,该总数应少于训练示例的数量。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.