Questions tagged «classification»

在机器学习和统计中,分类是基于训练数据集来确定新观测值属于一组类别中的哪个的问题,该训练数据集包含已知其类别成员(标签)的观测值。

5
朴素贝叶斯分类的简单解释
我发现很难理解朴素贝叶斯的过程,而且我想知道是否有人可以用简单的英语逐步过程来解释它。我知道它会将发生的时间进行比较作为概率,但是我不知道训练数据与实际数据集之间的关系。 请给我解释一下培训集扮演的角色。我在这里举一个非常简单的水果示例,例如香蕉 training set--- round-red round-orange oblong-yellow round-red dataset---- round-red round-orange round-red round-orange oblong-yellow round-red round-orange oblong-yellow oblong-yellow round-red

6
人工神经网络比支持向量机有什么优势?[关闭]
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实,参考或专业知识的支持,但是这个问题可能会引起辩论,争论,民意调查或扩展讨论。如果您认为此问题可以解决并且可以重新提出,请访问帮助中心以获取指导。 7年前关闭。 ANN(人工神经网络)和SVM(支持向量机)是有监督的机器学习和分类的两种流行策略。哪种方法更适合特定项目通常不是很清楚,我敢肯定答案总是“取决于情况”。通常,将两者与贝叶斯分类一起使用。 关于ANN与SVM的关于Stackoverflow的这些问题已经被提出: ANN和SVM分类 我的分类问题中ANN,SVM和KNN之间有什么区别 支持矢量机还是人工神经网络进行文本处理? 在这个问题中,我想具体了解ANN(特别是多层感知器)的哪些方面可能会使其更适合在SVM上使用?我问的原因是因为很容易回答相反的问题问题:支持向量机通常优于ANN,因为它们避免了ANN的两个主要缺点: (1)ANN通常会收敛于局部最小值而不是全局最小值,这意味着它们有时本质上是“缺少全局”(或缺少树木的森林) (2)人工神经网络经常过拟合如果训练时间太长,,这意味着对于任何给定的模式,神经网络可能会开始将噪声视为模式的一部分。 SVM不会遇到这两个问题。然而,将SVM完全替代ANN并不是很容易。那么,与支持向量机相比,人工神经网络具有哪些特定的优势,可能使其适用于某些情况?我已经列出了SVM相对于ANN的特定优势,现在,我希望看到ANN优势的列表(如果有)。


6
将分类器保存到scikit-learn中的磁盘
如何保存经过训练的朴素贝叶斯分类器到磁盘并用于预测数据? 我有来自scikit-learn网站的以下示例程序: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

13
如何建立模型以区分关于Apple(Inc.)的推文和关于Apple(fruit)的推文?
请参阅以下有关“苹果”的50条推文。我亲手写了有关Apple Inc.的正面匹配。它们在下面标记为1。 以下是几行: 1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account! 0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles 1|@dtfcdvEric: @MaroneyFan11 apple inc is searching for people to help and tryout all their upcoming tablet within …


5
使用scikit-learn分为多个类别
我正在尝试使用scikit-learn的监督学习方法之一将文本片段分类为一个或多个类别。我尝试过的所有算法的预测功能仅返回一个匹配项。 例如,我有一段文字: "Theaters in New York compared to those in London" 而且我已经训练了算法,可以为我输入的每个文本片段选择一个位置。 在上面的例子中,我希望它返回New York和London,但是只返回New York。 是否可以使用scikit-learn返回多个结果?甚至以下一个最高概率返回标签? 谢谢你的帮助。 -更新 我尝试使用,OneVsRestClassifier但每条文本我仍然只能得到一个选择。以下是我正在使用的示例代码 y_train = ('New York','London') train_set = ("new york nyc big apple", "london uk great britain") vocab = {'new york' :0,'nyc':1,'big apple':2,'london' : 3, 'uk': 4, 'great britain' : 5} count = …

5
支持向量的数量与训练数据和分类器性能之间的关系是什么?[关闭]
关闭。此问题不符合堆栈溢出准则。它当前不接受答案。 想改善这个问题吗?更新问题,使其成为Stack Overflow的主题。 3个月前关闭。 改善这个问题 我正在使用LibSVM对一些文档进行分类。正如最终结果所示,这些文档似乎很难归类。但是,在训练模型时,我注意到了一些东西。就是说:如果我的训练集例如是1000,那么大约有800个被选为支持向量。我到处都在寻找这是好事还是坏事。我的意思是支持向量的数量和分类器的性能之间有关系吗?我已经阅读了上一篇文章,但是我正在执行参数选择,而且我还确定特征向量中的属性都是有序的。我只需要知道这种关系。谢谢。ps:我使用线性内核。

5
scikit-learn .predict()默认阈值
我正在处理不平衡类(5%1)的分类问题。我想预测班级,而不是概率。 在二进制分类问题中,默认情况下是否classifier.predict()使用scikit 0.5?如果没有,默认方法是什么?如果可以,该如何更改? 在scikit中,某些分类器可以class_weight='auto'选择,但并非全部都可以。使用class_weight='auto',是否.predict()将实际人口比例用作阈值? 在MultinomialNB不支持的分类器中执行此操作的方式是什么class_weight?除了predict_proba()自己使用然后计算类之外。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.