Questions tagged «categorical-data»

分类数据可以使用数量有限(通常是固定的)的可能值,称为类别。分类值是“标签”,而不是“度量”。标称和二分/二进位量表类型是分类的。有些人也认为序数尺度是绝对的。

13
用于混合数值和分类数据的K-Means聚类
我的数据集包含许多数字属性和一个类别。 说NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, 其中CategoricalAttr采用的三个可能的值之一:CategoricalAttrValue1,CategoricalAttrValue2或CategoricalAttrValue3。 我正在为Octave使用默认的k-means聚类算法实现https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/。它仅适用于数字数据。 所以我的问题是:将类别属性拆分CategoricalAttr为三个数字(二进制​​)变量是否正确IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?

3
何时使用One Hot Encoding,LabelEncoder和DictVectorizo​​r?
我已经使用分类数据构建模型已有一段时间了,在这种情况下,我基本上默认使用scikit-learn的LabelEncoder函数在构建模型之前转换此数据。 我了解两者之间的区别OHE,LabelEncoder以及DictVectorizor它们在处理数据方面的区别,但是对我来说不清楚的是,您何时可能会选择将一种技术应用于另一种技术。 是否存在某些算法或情况相对于其他算法有优缺点?

3
如何结合分类和连续输入特征进行神经网络训练
假设我们有两种输入功能,即分类输入和连续输入。分类数据可以表示为单热码A,而连续数据只是N维空间中的向量B。似乎仅使用concat(A,B)并不是一个好选择,因为A,B是完全不同的数据。例如,与B不同,A中没有数字顺序。因此,我的问题是如何组合这两种数据,或者是否有任何常规方法来处理它们。 实际上,我提出了一个朴素的结构,如图所示 如您所见,前几层用于将数据A更改(或映射)到连续空间中的某个中间输出,然后将其与数据B合并,形成连续空间中新的输入要素,供以后的层使用。我不知道这是合理的还是仅仅是“试错”的游戏。谢谢。

2
为什么我们需要丢弃一个虚拟变量?
我了解到,为了创建回归模型,我们必须通过将分类变量转换为虚拟变量来加以处理。例如,如果在我们的数据集中存在诸如location之类的变量: Location ---------- Californian NY Florida 我们必须像这样转换它们: 1 0 0 0 1 0 0 0 1 但是,建议无论存在多少个虚拟变量,都必须丢弃一个虚拟变量。 为什么我们需要丢弃一个虚拟变量?

1
具有高基数分类特征的特征重要性用于回归(数字依赖变量)
我试图使用随机森林中的特征重要性来对回归问题执行一些经验性特征选择,该回归问题中所有特征都是分类的,并且其中许多特征具有许多级别(大约100-1000)。假设一键编码会为每个级别创建一个虚拟变量,那么功能的重要性是针对每个级别的,而不是针对每个功能(列)。汇总这些功能重要性的好方法是什么? 我考虑过对某个功能的所有级别进行求和或得出平均重要性(可能前者会偏向具有更高级别的那些功能)。关于这个问题有参考吗? 还有什么可以减少功能数量的呢?我知道套索组,找不到任何易于使用的scikit-learn。


3
如何动态区分类别数据和数字数据?
我知道有人正在从事一个项目,该项目涉及摄取数据文件而与列或数据类型无关。任务是获取具有任意数量的列和各种数据类型的文件,并输出有关数字数据的摘要统计信息。 但是,他不确定如何为某些基于数字的数据动态分配数据类型。例如: CITY Albuquerque Boston Chicago 这显然不是数字数据,将存储为文本。然而, ZIP 80221 60653 25525 没有明确标记为分类。他的软件会将邮政编码分配为数字,并为其输出摘要统计信息,这对于此类数据没有意义。 我们有几个想法是: 如果一列都是整数,则将其标记为分类。这显然行不通,但这是一个主意。 如果一列的唯一值少于n个且为数字,则将其分类。这可能更接近,但是仍然可能存在数值数据丢失的问题。 维护一个实际上应该是分类的公用数字数据列表,并将列标题与此列表进行比较以进行匹配。例如,任何带有“ ZIP”的内容都是分类的。 我的直觉告诉我,无法准确地将数字数据分配为分类数据或数字数据,但我希望提出建议。非常感谢您提供的任何见解。

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
如何在Pyspark中将分类数据转换为数值数据
我正在使用Ipython Notebook与pyspark应用程序一起使用。我有一个包含大量分类列的CSV文件,以确定收入是否低于或超过50k。我想使用所有输入来执行分类算法,以确定收入范围。我需要建立一个将变量映射到变量的字典,并使用map函数将变量映射到数字以进行处理。本质上,我会将数据集设置为数字格式,以便我可以实施模型。 在数据集中,有分类列,例如教育,婚姻状况,工人阶级等。有人可以告诉我如何将它们转换为pyspark中的数字列吗? workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} 我创建了一个示例字典,其中包含工作类的键值对。但是,我不知道如何在地图功能中使用此功能,并将CSV文件中的分类数据替换为相应的值。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) 这是我用普通的python编写的代码,用于将分类数据转换为数值数据。它工作正常。我想在Spark上下文中进行转换。并且,数据源中有9个类别列。有没有一种方法可以自动执行字典更新过程,以使所有9列都有一个KV对?

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
如何使用不固定的分类数据进行分类?
我对分类数据和数值数据都有分类问题。我面临的问题是我的分类数据不固定,这意味着我要预测其标签的新候选者可能具有一个新类别,而该类别之前没有被观察到。 例如,如果我的分类数据为sex,则无论如何female,唯一可能的标签将是male和other。但是,我的分类变量是city这样的,以至于我试图预测的人可能拥有一个我的分类器从未见过的新城市。 我想知道是否有一种方法可以按照这些术语进行分类,或者是否应该考虑这些新的分类数据再次进行培训。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.