数据科学 categorical-data

13

我的数据集包含许多数字属性和一个类别。说NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr，其中CategoricalAttr采用的三个可能的值之一：CategoricalAttrValue1，CategoricalAttrValue2或CategoricalAttrValue3。我正在为Octave使用默认的k-means聚类算法实现https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/。它仅适用于数字数据。所以我的问题是：将类别属性拆分CategoricalAttr为三个数字（二进制）变量是否正确IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3？

133 data-mining clustering octave k-means categorical-data

3

何时使用One Hot Encoding，LabelEncoder和DictVectorizor？

我已经使用分类数据构建模型已有一段时间了，在这种情况下，我基本上默认使用scikit-learn的LabelEncoder函数在构建模型之前转换此数据。我了解两者之间的区别OHE，LabelEncoder以及DictVectorizor它们在处理数据方面的区别，但是对我来说不清楚的是，您何时可能会选择将一种技术应用于另一种技术。是否存在某些算法或情况相对于其他算法有优缺点？

95 scikit-learn categorical-data feature-engineering

3

如何结合分类和连续输入特征进行神经网络训练

假设我们有两种输入功能，即分类输入和连续输入。分类数据可以表示为单热码A，而连续数据只是N维空间中的向量B。似乎仅使用concat（A，B）并不是一个好选择，因为A，B是完全不同的数据。例如，与B不同，A中没有数字顺序。因此，我的问题是如何组合这两种数据，或者是否有任何常规方法来处理它们。实际上，我提出了一个朴素的结构，如图所示如您所见，前几层用于将数据A更改（或映射）到连续空间中的某个中间输出，然后将其与数据B合并，形成连续空间中新的输入要素，供以后的层使用。我不知道这是合理的还是仅仅是“试错”的游戏。谢谢。

16 neural-network feature-selection categorical-data feature-construction

2

为什么我们需要丢弃一个虚拟变量？

我了解到，为了创建回归模型，我们必须通过将分类变量转换为虚拟变量来加以处理。例如，如果在我们的数据集中存在诸如location之类的变量： Location ---------- Californian NY Florida 我们必须像这样转换它们： 1 0 0 0 1 0 0 0 1 但是，建议无论存在多少个虚拟变量，都必须丢弃一个虚拟变量。为什么我们需要丢弃一个虚拟变量？

16 machine-learning regression categorical-data

1

具有高基数分类特征的特征重要性用于回归（数字依赖变量）

我试图使用随机森林中的特征重要性来对回归问题执行一些经验性特征选择，该回归问题中所有特征都是分类的，并且其中许多特征具有许多级别（大约100-1000）。假设一键编码会为每个级别创建一个虚拟变量，那么功能的重要性是针对每个级别的，而不是针对每个功能（列）。汇总这些功能重要性的好方法是什么？我考虑过对某个功能的所有级别进行求和或得出平均重要性（可能前者会偏向具有更高级别的那些功能）。关于这个问题有参考吗？还有什么可以减少功能数量的呢？我知道套索组，找不到任何易于使用的scikit-learn。

12 scikit-learn feature-selection random-forest xgboost categorical-data

3

批量转换Pandas中的分类列（不是一键编码）

我有带有大量分类列的pandas数据框，我打算在scikit-learn的决策树中使用它。我需要将它们转换为数值（不是一个热向量）。我可以使用scikit-learn的LabelEncoder做到这一点。问题是它们太多了，我不想手动转换它们。什么是使该过程自动化的简单方法。

12 scikit-learn pandas categorical-data labels

3

如何动态区分类别数据和数字数据？

我知道有人正在从事一个项目，该项目涉及摄取数据文件而与列或数据类型无关。任务是获取具有任意数量的列和各种数据类型的文件，并输出有关数字数据的摘要统计信息。但是，他不确定如何为某些基于数字的数据动态分配数据类型。例如： CITY Albuquerque Boston Chicago 这显然不是数字数据，将存储为文本。然而， ZIP 80221 60653 25525 没有明确标记为分类。他的软件会将邮政编码分配为数字，并为其输出摘要统计信息，这对于此类数据没有意义。我们有几个想法是：如果一列都是整数，则将其标记为分类。这显然行不通，但这是一个主意。如果一列的唯一值少于n个且为数字，则将其分类。这可能更接近，但是仍然可能存在数值数据丢失的问题。维护一个实际上应该是分类的公用数字数据列表，并将列标题与此列表进行比较以进行匹配。例如，任何带有“ ZIP”的内容都是分类的。我的直觉告诉我，无法准确地将数字数据分配为分类数据或数字数据，但我希望提出建议。非常感谢您提供的任何见解。

12 categorical-data numerical

3

是否有适用于python的好的即用型语言模型？

我正在为一个应用程序制作原型，我需要一个语言模型来计算一些生成的句子的困惑度。我可以随时使用经过训练的python语言模型吗？简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架，但找不到我想要的。我知道我可以使用类似： from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布，但是我正在一些大型数据集（例如1b单词数据集）上寻找精心设计的模型。我可以真正相信一般领域的结果（不仅是新闻）

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

如何在Pyspark中将分类数据转换为数值数据

我正在使用Ipython Notebook与pyspark应用程序一起使用。我有一个包含大量分类列的CSV文件，以确定收入是否低于或超过50k。我想使用所有输入来执行分类算法，以确定收入范围。我需要建立一个将变量映射到变量的字典，并使用map函数将变量映射到数字以进行处理。本质上，我会将数据集设置为数字格式，以便我可以实施模型。在数据集中，有分类列，例如教育，婚姻状况，工人阶级等。有人可以告诉我如何将它们转换为pyspark中的数字列吗？ workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} 我创建了一个示例字典，其中包含工作类的键值对。但是，我不知道如何在地图功能中使用此功能，并将CSV文件中的分类数据替换为相应的值。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) 这是我用普通的python编写的代码，用于将分类数据转换为数值数据。它工作正常。我想在Spark上下文中进行转换。并且，数据源中有9个类别列。有没有一种方法可以自动执行字典更新过程，以使所有9列都有一个KV对？

11 python apache-spark categorical-data pyspark

3

最佳科学计算语言[关闭]

已关闭。这个问题需要更加集中。它当前不接受答案。想改善这个问题吗？更新问题，使其仅通过编辑此帖子来关注一个问题。 5年前关闭。似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个且不说像语言R和Julia明确的科学计算而设计。有这么多种选择，您如何选择适合任务的最佳语言？另外，哪种语言的性能最高？Python并且R似乎在该领域具有最大的吸引力，但从逻辑上讲，编译语言似乎是一个更好的选择。会有什么表现胜过Fortran？此外编译语言往往有GPU加速，而解释性语言如R并Python没有。选择一种语言时应该考虑什么？哪些语言可以在效用和性能之间取得最佳平衡？还有我错过的具有重要科学计算资源的语言吗？

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

如何使用不固定的分类数据进行分类？

我对分类数据和数值数据都有分类问题。我面临的问题是我的分类数据不固定，这意味着我要预测其标签的新候选者可能具有一个新类别，而该类别之前没有被观察到。例如，如果我的分类数据为sex，则无论如何female，唯一可能的标签将是male和other。但是，我的分类变量是city这样的，以至于我试图预测的人可能拥有一个我的分类器从未见过的新城市。我想知道是否有一种方法可以按照这些术语进行分类，或者是否应该考虑这些新的分类数据再次进行培训。

10 machine-learning classification categorical-data

Questions tagged «categorical-data»