统计和大数据 classification

1

我想知道在将原始数据集分为训练和测试集进行分类时，使用分层抽样而不是随机抽样是否有任何/某些优势。另外，分层抽样是否比随机抽样给分类器带来更大的偏差？我想使用分层抽样进行数据准备的应用程序是一个随机森林分类器，在2上进行了训练2323\frac{2}{3}原始数据集的 3。在分类器之前，还有一个合成样本生成的步骤（SMOTE [1]），可以平衡类的大小。 [1] Chawla，Nitesh V.等。“ SMOTE：合成少数族群过采样技术。 ”人工智能研究杂志16（2002）：321-357。

20 classification cross-validation random-forest train stratification

1

LDA是一种分类技术，又如何像PCA一样用作降维技术

在本文中，作者将线性判别分析（LDA）链接到主成分分析（PCA）。以我的有限知识，我无法理解LDA如何与PCA有点相似。我一直认为LDA是分类算法的一种形式，类似于逻辑回归。我将对理解LDA与PCA的相似之处（即它如何降低维度）有一些帮助。

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

随机森林过度拟合吗？

我正在使用scikit-learn在随机森林中进行实验，并且获得了很好的训练结果，但是相对而言，我的测试结果却很差... 这是我要解决的问题（灵感来自扑克）：给定玩家A的底牌，玩家B的底牌和翻牌（3张牌），哪位玩家的手牌最好？从数学上讲，这是14个输入（7张卡-一张等级，每张一套）和一个输出（0或1）。到目前为止，这是我的一些结果： Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing set: 90.05% Training set size: 400k, test set size: 80k, number of trees: 100 Success rate in training set: 100% Success rate in testing set: …

19 classification random-forest scikit-learn

3

半监督学习，主动学习和深度学习进行分类

最终编辑，所有资源已更新：对于一个项目，我正在应用机器学习算法进行分类。挑战：有限的标记数据和更多的未标记数据。目标：应用半监督分类应用某种程度上的半监督式标签过程（称为主动学习）我从研究论文中发现了很多信息，例如应用EM，Transductive SVM或S3VM（半监督SVM），或者以某种方式使用LDA等。关于该主题的书籍也很少。问题：实现方式和实际来源在哪里？最终更新（基于mpiktas，bayer和Dikran Marsupial提供的帮助）半监督学习： TSVM：位于SVMligth和SVMlin中。 EM朴素贝叶斯（Python） EM在LinePipe项目中主动学习：二元论：一种主动学习的实现，带有文本分类源代码该网页很好地概述了主动学习。实验设计研讨会：此处。深度学习：此处的介绍性视频。一般网站。斯坦福无监督特征学习和深度学习教程。

19 machine-learning classification software svm text-mining

7

机器学习中的有偏数据

我正在一个机器学习项目中，该项目的数据已经（严重）受到数据选择的影响。假设您有一组硬编码规则。当它可以使用的所有数据都是已经被这些规则过滤的数据时，您如何构建一个机器学习模型来替换它？为了明确起见，我猜最好的例子是信用风险评估：任务是过滤所有可能无法付款的客户。现在，您拥有的唯一（带有标签的）数据来自该组规则已接受的客户，因为只有在接受之后，您才能看到有人付款（显然）。您不知道这套规则有多好，它们将对有偿分配到无偿分配产生多大影响。此外，再次由于规则集，您已经拒绝了来自客户端的未标记数据。因此，您不知道如果这些客户被接受，将会发生什么情况。例如，规则之一可能是：“如果客户年龄小于18岁，则不接受” 分类器无法学习如何处理已被这些规则过滤的客户端。分类器应如何在此处学习模式？忽略此问题，将导致模型暴露于从未遇到过的数据中。基本上，我想在x在[a，b]之外时估计f（x）的值。

18 machine-learning classification data-mining bias extrapolation

1

普遍关于过采样的观点，尤其是关于SMOTE算法的观点[关闭]

已关闭。这个问题是基于观点的。它当前不接受答案。想改善这个问题吗？更新问题，以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。您总体上对分类过采样，特别是对SMOTE算法有何看法？为什么我们不仅仅应用成本/罚金来调整类数据的不平衡和任何不平衡的错误成本？就我的目的而言，对未来一组实验单位的预测准确性是最终的衡量标准。作为参考，SMOTE论文：http : //www.jair.org/papers/paper953.html

18 machine-learning classification oversampling

5

大规模文本分类

我想对我的文本数据进行分类。我300 classes每节课有200份培训文档（所以60000 documents in total），这很可能导致非常高的维度数据（我们可能正在寻找超过100万个维度）。我想在管道中执行以下步骤（只是为了让您了解我的要求）：将每个文档转换为特征向量（tf-idf或vector space model） Feature selection（Mutual Information最好是基于其他标准的）训练分类（SVM，Naive Bayes，Logistic Regression或Random Forest）基于训练的分类器模型预测看不见的数据。所以问题是，我应该使用哪些工具/框架来处理此类高维数据？我知道通常的可疑对象（R，WEKA ...），但据我所知（可能是错误的），可能没有一个可以处理如此大的数据。我还有其他现成的工具吗？如果必须并行处理，是否应该使用Apache Mahout？看起来它可能还没有提供我需要的功能。在此先感谢所有。更新：我环顾了这个网站，R邮件列表和一般的互联网。在我看来，在我的情况下可能出现以下问题：（1）使用R（特别是tm软件包）对数据进行预处理可能不切实际，因为这tm会非常慢。（2）由于我将需要使用一组R包（预处理，稀疏矩阵，分类器等），因此包之间的互操作性可能会成为问题，并且在将数据从一种格式转换为另一种格式时，可能会产生额外的开销。例如，如果我使用tm（或外部工具，例如WEKA）进行预处理，则需要找出一种方法来将该数据转换为R中的HPC库可以读取的形式。同样，对我来说还不清楚分类程序包是否将直接获取HPC库提供的数据。我在正确的轨道上吗？更重要的是，我有道理吗？

18 machine-learning classification text-mining

10

社交网络数据集

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我正在寻找分类任务的社交网络数据集（Twitter，FriendFeed，Facebook，Lastfm等），最好是Arff格式。到目前为止，我通过UCI和Google进行的搜索均未成功……有什么建议吗？

18 classification dataset

3

构建一个多类分类器是否优于几个二进制分类器？

我需要将URL分类。假设我有15个类别，我打算将每个URL归零。 15向分类器更好吗？我有15个标签，并为每个数据点生成特征。还是建立15个二元分类器，例如：电影或非电影，并使用从这些分类中获得的数字来构建等级，以选择最佳类别，从而变得更好？

18 machine-learning classification categorical-data svm feature-selection

2

为什么ridge回归分类器在文本分类中效果很好？

在进行文本分类的实验中，我发现了脊分类器生成的结果，这些结果一直领先于那些最常提及的分类器中的测试，这些分类器适用于文本挖掘任务，例如SVM，NB，kNN等。尽管我没有详细说明除了针对参数的一些简单调整外，还针对此特定文本分类任务优化了每个分类器。这样的结果也提到了迪克兰有袋动物。并非来自统计背景，在在线阅读了一些材料之后，我仍然无法弄清其主要原因。谁能提供一些有关这种结果的见解？

18 machine-learning classification text-mining ridge-regression

2

对过采样的不平衡数据进行测试分类

我正在处理严重不平衡的数据。在文献中，使用几种方法通过重新采样（过采样或欠采样）来重新平衡数据。两种好的方法是： SMOTE：合成少数类过采样技术（SMOTE） ADASYN：用于失衡学习的自适应合成采样方法（ADASYN）我之所以实现ADASYN，是因为它具有自适应性并且易于扩展到多类问题。我的问题是如何测试由ADASYN产生的过采样数据（或任何其他过采样方法）。在上述两篇论文中还不清楚他们如何进行实验。有两种情况： 1-对整个数据集进行过采样，然后将其拆分为训练和测试集（或交叉验证）。 2-拆分原始数据集后，仅对训练集执行过采样，然后对原始数据测试集进行测试（可以通过交叉验证执行）。在第一种情况下，结果要比不进行过度采样好得多，但我担心是否存在过度拟合。在第二种情况下，结果比没有过采样的情况略好，但比第一种情况差得多。但是第二种情况的问题在于，如果所有少数族裔样本都进入测试集，那么过采样将不会带来任何好处。我不确定是否还有其他设置可以测试此类数据。

18 classification dataset resampling unbalanced-classes oversampling

1

测验：通过分类边界告诉分类器

给出以下6个决策边界。决策边界是紫罗兰色线。点和十字是两个不同的数据集。我们必须确定哪个是：线性支持向量机内核化SVM（2阶多项式内核）感知器逻辑回归神经网络（1个隐藏层和10个整流线性单元）神经网络（1个隐藏层，具有10 tanh单位）我想要解决方案。但更重要的是，了解差异。例如，我会说c）是线性SVM。决策边界是线性的。但是我们也可以使线性SVM决策边界的坐标均匀化。d）核化的SVM，因为它是多项式阶数2。f）由于“粗糙”的边缘，因此校正了神经网络。也许a）逻辑回归：它也是线性分类器，但基于概率。

17 machine-learning self-study classification neural-networks svm

3

什么时候不应该使用集成分类器？

通常，在目标是准确预测样本外类成员身份的分类问题中，我什么时候不应该使用集合分类器？这个问题与为什么不总是使用集成学习紧密相关？。这个问题问为什么我们不一直使用合奏。我想知道是否存在某些情况，即合奏比非合奏更糟（不仅仅是“不更好，更浪费时间”）。通过“整体分类器”，我专门指的是诸如AdaBoost和随机森林之类的分类器，而不是例如滚动自带的增强支持向量机。

17 classification boosting ensemble bagging

1

朴素贝叶斯何时比SVM表现更好？

在我正在研究的一个小型文本分类问题中，朴素贝叶斯（Naive Bayes）表现出与SVM相似或更高的性能，我感到非常困惑。我想知道是什么因素决定一种算法胜过另一种算法。是否存在没有必要在SVM上使用朴素贝叶斯的情况？有人可以阐明这一点吗？

17 machine-learning classification svm naive-bayes

1

我想根据新闻报道建立犯罪指数和政治动荡指数

我有一个辅助项目，在这里我可以爬行我所在国家的本地新闻网站，并希望建立犯罪指数和政治动荡指数。我已经介绍了该项目的信息检索部分。我的计划是：无监督主题提取。近重复检测。受监督的分类和事件级别（犯罪/政治-高/中/低）。我将使用python和sklearn，并且已经研究了可用于这些任务的算法。我认为2.可能会使我联想到一个故事的相关性：有关某个故事或主题的新闻报道越多，当天的相关性就越高。我的下一步是根据我拥有的功能构建每月，每周和每天的索引（全国范围内和每个城市），由于“不稳定敏感性”可能会随着时间的推移而增加，我在这里有点迷失了。我的意思是，去年重大动荡事件的指数可能小于今年的指数。另外，是否使用0-100的固定刻度。稍后，我希望能够以此为基础来预测事件，例如，过去几周的事件接连是否导致重大事件。但是现在，我将很高兴让分类生效并建立索引模型。我将不胜感激任何指向论文，相关阅读或思想的指针。谢谢。 PD：很抱歉，这个问题不属于这里。更新：我还没有“做到这一点”，但是最近有一个新闻，关于一群科学家正在使用新闻档案系统预测事件的系统中发表了一篇新闻，并发表了相关论文《挖掘网络来预测未来事件》（PDF ）。

17 machine-learning classification text-mining

Questions tagged «classification»