数据科学 classification

5

我有一个二进制分类问题：训练集中约有1000个样本 10个属性，包括二进制，数字和分类哪种算法是解决此类问题的最佳选择？默认情况下，我将从SVM（将标称属性值转换为二进制特征的初步方法）开始，因为它被认为是相对干净和无噪声数据的最佳选择。

17 classification binary svm random-forest logistic-regression

5

我corr()用原始df 创建了df。该corr()DF出来70×70，这是不可能的可视化热图... sns.heatmap(df)。如果我尝试显示corr = df.corr()，则表格不适合屏幕，并且我可以看到所有相关性。它是打印整个df大小而不管其大小还是控制热图大小的方法吗？

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

5

在机器学习中合并稀疏和密集的数据以提高性能

我有可预测的稀疏特征，也有一些也可预测的密集特征。我需要将这些功能结合在一起，以提高分类器的整体性能。现在，当我尝试将它们组合在一起时，稠密特征往往比稀疏特征更占主导地位，因此与仅具有稠密特征的模型相比，AUC仅改善了1％。有人遇到过类似的问题吗？非常感谢您的投入，有点卡住。我已经尝试了许多不同的分类器，分类器的组合，特征转换以及使用不同算法的处理。先谢谢您的帮助。编辑：我已经尝试了评论中给出的建议。我观察到的是，对于几乎45％的数据，稀疏特征的性能确实很好，只有稀疏特征的AUC约为0.9，而对于其余稠密特征，AUC约为0.75的性能很好。我尝试将这些数据集分离出来，但得到的AUC为0.6，因此，我不能简单地训练模型并确定要使用的功能。关于代码段，我已经尝试了很多东西，以至于我不确定要分享什么：(

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

3

一类具有不平衡，异质负面背景的歧视性分类？

我正在努力改进现有的监督分类器，以将{蛋白质}序列归为特定类别（神经肽激素前体）或不属于特定类别。在大约1300万个蛋白质序列的背景下（“未知/注释不充分的背景”），或大约100,000个经过审查的相关蛋白质，已知的“阳性”蛋白质带有多种属性（但很少有显式注释的蛋白质） “负”方式）。我以前的实现将其视为二进制分类问题：阳性集=标记为Neuropeptides的蛋白质。阴性集：从剩余的蛋白质中随机抽取1300个样本（总计），这些蛋白质的长度方向分布大致相似。那行得通，但是我想大大提高机器的辨别能力（目前，在多个随机采样的负数集上，按CV测得的精度，AUC，F1约为83-86％）。我的想法是：1）使这成为一个多类问题，选择2-3种不同类型的蛋白质，这些蛋白质将根据其特性/功能类别以及（也许）另一组随机采样的样本确定为阴性。（这里的优先级将是负集合，其特征/特征与正集合相似，同时仍具有定义的特征）。2）一次课堂学习-很好，但是据我了解，它仅用于异常检测，并且其性能比歧视性方法差。 *）我听说过PU学习，听起来很整洁，但是我正在编程N00b，而且我不知道它的任何现有实现。（在Python / sci-kit中学习）。那么，方法1在理论POV中是否有意义？有没有最好的方法来制作多个负数集？（我也可以简单地使用大量[50K]的“阴性”蛋白，但是它们彼此之间非常不同，因此我不知道分类器如何将它们作为一个大的不平衡混合物来处理）。谢谢！

16 machine-learning data-mining python classification

6

对几个连续变量进行对数转换的原因是什么？

我一直在做分类问题，并且阅读了很多人的代码和教程。我注意到的一件事是，许多人采用np.log或log连续变量，例如loan_amount或applicant_income等。我只想了解其背后的原因。它有助于提高我们的模型预测准确性。它是强制性的吗？还是背后有逻辑？如果可能的话，请提供一些解释。谢谢。

16 machine-learning python classification scikit-learn

1

如何为决策树中的连续变量选择分割点？

我有两个与决策树有关的问题：如果我们有一个连续的属性，我们如何选择分割值？例如：年龄=（20,29,50,40 ....）想象一下，我们有一个连续属性，其值在R中。我该如何写一个算法找到分裂点v，以便当我们将f除以v时，我们得到f > v的最小增益？fffRRRvvvfffvvvf>vf>vf>v

15 classification data decision-trees

4

决策树还是逻辑回归？

我正在处理分类问题。我有一个包含相等数量的分类变量和连续变量的数据集。我怎么知道要使用哪种技术？在决策树和逻辑回归之间？假设逻辑回归将更适合于连续变量，决策树将更适合于连续+分类变量，对吗？

14 classification logistic-regression decision-trees

2

使用属性来分类/集群用户配置文件

我有一个用户从网站购买产品的数据集。我具有的属性是用户ID，用户的地区（州），产品的类别ID，产品的关键字ID，网站的关键字ID和产品的销售金额。目的是使用产品和网站的信息来识别用户的身份，例如“年轻的男性玩家”或“待在家里的妈妈”。我附上了一个示例图片，如下所示：产品共有1940个唯一类别和13845个唯一关键字。对于该网站，有13063个唯一关键字。整个数据集非常庞大，因为这是每日的记录数据。我正在考虑聚类，因为它们是无监督的，但是这些id是没有数字含义的有序数字。然后我不知道如何应用该算法。我也在考虑分类。如果我根据购买的产品的销售额添加一列类。我认为群集是更可取的。我不知道在这种情况下应该使用哪种算法，因为关键字id的尺寸可能会超过10000（每个产品可能有很多关键字，网站也是如此）。我需要在该项目中使用Spark。有人可以帮我一些想法或建议吗？非常感谢！

14 machine-learning data-mining classification clustering

2

不平衡数据的二进制分类模型

我有一个具有以下规格的数据集：训练193,176个样本的数据集，具有2,821个阳性包含82,887个样本和673个阳性样本的测试数据集有10个功能。我想执行一个二进制分类（0或1）。我面临的问题是数据非常不平衡。在对数据进行归一化和缩放以及一些特征工程并使用几种不同的算法之后，这些是我可以实现的最佳结果： mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] 即只有6个正确的正面命中率。这是使用逻辑回归。这是我尝试过的各种方法：不同的算法，例如RandomForest，DecisionTree，SVM 更改参数值以调用函数一些基于直觉的要素工程以包含复合要素现在，我的问题是：我该怎么做才能增加正面的点击次数？在这种情况下，如何确定是否存在过度拟合？（我曾尝试绘图等。）在什么时候可以得出结论，也许这可能是我所能做到的最佳选择？（考虑到673中只有6个匹配项，这似乎很可悲）有没有办法使正样本实例更重，从而提高模式识别能力并导致更多匹配？哪些图形化图可以帮助检测离群值或关于哪种模式最适合的直觉？我将scikit-learn库与Python一起使用，并且所有实现都是库函数。编辑：以下是一些其他算法的结果：随机森林分类器（n_estimators = 100） [[82211 667] [ 3 6]] 决策树： [[78611 635] [ 3603 38]]

14 machine-learning python classification logistic-regression

1

如何在朴素贝叶斯分类器计算中处理零因子？

14 classification naive-bayes-classifier

1

特征生成和特征提取之间有什么区别？

谁能告诉我特征生成的目的是什么？为什么在对图像进行分类之前需要进行特征空间丰富化？这是必要步骤吗？有什么方法可以丰富要素空间？

13 machine-learning classification

3

混合属性类型对数据集进行分类的最佳方法

我想知道对由混合类型的属性（例如，文本和数字）组成的数据集进行分类的最佳方法是什么。我知道我可以将文本转换为布尔值，但是词汇量繁多，数据变得稀疏。我还尝试对属性的类型进行单独分类，并通过元学习技术将结果组合在一起，但是效果并不理想。

13 machine-learning classification

2

为什么我们需要处理数据不平衡？

我需要知道为什么我们需要处理数据不平衡问题。我知道如何处理它以及通过上采样或下采样或使用Smote来解决该问题的不同方法。例如，如果我患一种罕见疾病，即100分之一，而我决定为我的训练集选择一个平衡的数据集，即：50/50样本不会使机器认为50％的患者会疾病？即使比率是100的1。所以为什么我们需要处理数据不平衡问题？设定余额的建议比率是多少

12 classification dataset sampling class-imbalance

3

如何使用RBM进行分类？

目前，我正在使用Restricted Boltzmann Machines，由于我一直在使用它，所以我想尝试用它对手写数字进行分类。我创建的模型现在是相当不错的生成模型，但是我不知道该如何进一步发展。在本文中，作者说，在创建了良好的生成模型后，“ 然后使用标记的样本在RBM上训练一个判别式分类器（即线性分类器，支持向量机），并进一步声明”，因为您传播了将数据向量传递到RBM模型的隐藏单元，以获取隐藏单元向量，或对数据进行更高级的表示。问题是我不确定我是否正确。这是否意味着我要做的就是将输入传播到隐藏的单元，并且我有用于分类的RBM功能？有人可以向我解释这个过程吗？

12 classification rbm

1

根据2个功能和事件时间序列对客户进行分类

在设计算法的下一步时，我需要帮助。由于NDA的原因，我无法透露太多，但我会尽量做到通俗易懂。基本上，在算法中经过几个步骤之后，我得到了：对于我拥有的每个客户及其一个月内发生的事件，在第一步中，我将事件分为几类（每位客户将事件分为从1到x等于1到25之间的x的类别，通常，第一类别的事件密度高于其他类别。我为每个类别和客户创建了一个时间序列，汇总每小时每小时的事件（获取完成这些事件的时间的模式）。我还使用了一些归一化变量，这些变量基于一个人在一个月（30天）内执行至少一个事件的天数，以及在一个事件中至少发生一个事件的天数中至少发生一个事件的天数事件（汇总所有群集）。第一个给了我一个月客户活跃度的比率，第二个给了这个类别与其他类别的权重。决赛桌看起来像这样 |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | Events9AM Events10AM ... xx | 1 | 0,69 | 0,72 | 0,2 0,13 ... xx | 2 | 0,11 | 0,28 | 0,1 0,45 ... …

12 classification clustering time-series

Questions tagged «classification»