Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

3
为什么朴素的贝叶斯分类器表现如此出色?
朴素贝叶斯分类器是分类问题的流行选择。造成这种情况的原因很多,包括: “ Zeitgeist”-大约十年前垃圾邮件过滤器成功之后,人们的广泛意识 容易写 分类器模型可以快速建立 可以使用新的训练数据修改模型,而无需重建模型 但是,它们是“幼稚的”(即它们假定特征是独立的),这与其他分类器(例如最大熵分类器)(计算速度较慢)形成对比。 通常不能假定独立性假设,并且在很多(大多数)情况下,包括垃圾邮件过滤器示例,这都是错误的。 那么,即使这些功能不是彼此独立的,为什么朴素贝叶斯分类器在这些应用程序中仍然表现出色?

2
ImageNet:什么是top-1和top-5错误率?
在ImageNet分类论文中,top-1和top-5错误率是衡量某些解决方案成功与否的重要单位,但是这些错误率是多少? 在Krizhevsky等人的《具有深度卷积神经网络的ImageNet分类 》中。每个基于一个CNN的解决方案(第7页)都没有前5个错误率,而具有5个和7个CNN的解决方案则有5个错误率(而且7个CNN的错误率比5个CNN的更好)。 这是否意味着top-1错误率是一个CNN的最佳单一错误率? 前五位的错误率仅仅是五个CNN的累积错误率吗?

3
将单词嵌入应用于整个文档,以获得特征向量
如何使用词嵌入将文档映射到适合于监督学习的特征向量? 甲字嵌入每个单词映射到一个向量,其中是一些不太大数目(例如,500)。流行的词嵌入包括word2vec和Glove。v ∈ [R d dwwwv∈Rdv∈Rdv \in \mathbb{R}^dddd 我想应用监督学习对文档进行分类。我目前正在使用单词袋表示法将每个文档映射到特征向量,然后应用现成的分类器。我想用一个基于现有的预训练词嵌入的词替换词袋特征向量,以利用词嵌入中包含的语义知识。有标准的方法吗? 我可以想象出一些可能性,但是我不知道是否有最有意义的东西。我考虑过的候选方法: 我可以计算文档中每个单词的向量,然后将它们平均。但是,这似乎可能会丢失很多信息。例如,使用词袋表示法,如果有几个词与分类任务高度相关,而大多数词都不相关,则分类器可以轻松地学习到;如果我将文档中所有单词的向量平均,分类器就没有机会了。 将所有单词的向量连接起来是行不通的,因为这不会导致固定大小的特征向量。同样,这似乎是一个坏主意,因为它将对单词的特定位置过于敏感。 我可以使用单词嵌入将所有单词的词汇聚类为一组固定的聚类,例如1000个聚类,其中我在向量上使用余弦相似度作为单词相似度的度量。然后,我可以有一个词包,而不是词包:我提供给分类器的特征向量可以是1000个向量,其中第个分量计算文档中的词数是集群一部分。我iiiiii 给定单词,这些单词嵌入使我能够计算出前20个最相似的单词及其相似度得分的集合。我可以使用它来适应类似词袋的特征向量。当我看到这个词,除了增加相应字元素由,我还可以增加对应的字元素通过,增加对应的字元素通过,等等。w 1,… ,w 20 s 1,… ,s 20 w w w 1 w 1 s 1 w 2 s 2wwww1,…,w20w1,…,w20w_1,\dots,w_{20}s1,…,s20s1,…,s20s_1,\dots,s_{20}wwwwww111w1w1w_1s1s1s_1w2w2w_2s2s2s_2 是否有任何特定的方法可能对文档分类有效? 我不是在寻找para2vec或doc2vec;这些需要在大型数据语料库上进行培训,而我没有大型数据语料库。相反,我想使用现有的单词嵌入。

6
使用许多分类变量改善分类
我正在使用一个包含200,000多个样本和每个样本约50个特征的数据集:10个连续变量,另外约40个是类别变量(国家,语言,科学领域等)。对于这些分类变量,您有150个不同的国家/地区,50种语言,50个科学领域等。 到目前为止,我的方法是: 对于具有许多可能值的每个类别变量,仅采用具有超过10000个样本的值作为该变量。这将减少到5-10个类别,而不是150个类别。 为每个类别建立虚拟变量(如果有10个国家,则为每个样本添加大小为10的二元向量)。 用此数据输入随机森林分类器(交叉验证参数等)。 目前,使用这种方法,我只能获得65%的准确度,并且我认为可以做得更多。尤其是我对1)感到不满意,因为我觉得我不应该根据他们拥有的样本数量随意删除“最不相关的值”,因为这些表示较少的值可能更具区分性。另一方面,我的RAM无法通过保留所有可能的值向数据添加500列* 200000行。 您有什么建议要应对这么多的分类变量吗?

3
SVM,过度拟合,尺寸诅咒
我的数据集很小(120个样本),但是特征的数量却很大(从1000-200,000)不等。尽管我正在进行特征选择以选择特征子集,但它可能仍然过拟合。 我的第一个问题是,SVM如何处理过度拟合(如果有的话)。 其次,随着我对分类情况下的过度拟合的更多研究,我得出的结论是,即使具有少量特征的数据集也可能过度拟合。如果我们没有与类标签相关的特征,则无论如何都会发生过度拟合。因此,我现在想知道如果无法为类标签找到正确的功能,那么自动分类的意义何在?在文档分类的情况下,这将意味着手动制作与标签有关的单词词库,这非常耗时。我想我想说的是,如果不亲自挑选正确的功能,就很难建立通用模型? 同样,如果实验结果没有表明结果偏低/没有过拟合,则变得毫无意义。有办法测量吗?

2
Logistic回归与LDA作为两类分类器
我正在努力解决线性判别分析和Logistic回归之间的统计差异。我的理解是正确的,对于两类分类问题,LDA预测了两个法线密度函数(每个类一个),它们在它们相交处创建了线性边界,而逻辑回归仅预测了两类之间的对数奇数函数。创建一个边界,但不为每个类假设密度函数?

3
PCA和火车/测试区
我有一个数据集,其中有多组二进制标签。对于每组标签,我训练一个分类器,并通过交叉验证对其进行评估。我想使用主成分分析(PCA)降低尺寸。我的问题是: 是否可以对整个数据集执行一次 PCA ,然后如上所述使用较低维度的新数据集进行交叉验证?还是我需要为每个训练集做一个单独的PCA(这意味着为每个分类器和每个交叉验证对折做一个单独的PCA)? 一方面,PCA不使用任何标签。另一方面,它确实使用测试数据进行转换,因此恐怕它可能会偏向结果。 我应该提到,除了为我节省一些工作之外,对整个数据集执行一次PCA可使我立即可视化所有标签集的数据集。如果每个标签集都有不同的PCA,则需要分别可视化每个标签集。

3
如何解释随机森林的OOB和混淆矩阵?
我从某人那里获得了R脚本来运行随机森林模型。我修改并运行了一些员工数据。我们正在尝试预测自愿离职。 以下是一些其他信息:这是一个分类模型,其中0 =员工留下,1 =员工终止,我们目前仅查看十二个预测变量,数据“不平衡”,因为术语记录约占7占总记录集的百分比。 我使用各种mtry和ntree选择来运行模型,但是选择了以下内容。OOB是6.8%,我认为这很好,但是混淆矩阵似乎在讲另一个预测术语的方法,因为错误率非常高,达到92.79%。我认为我不能依靠和使用此模型是正确的,因为预测术语的高错误率?还是可以做一些事情来使用RF并获得较小的错误率来预测术语? FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

5
免费的数据集,用于非常高的尺寸分类[关闭]
有超过1000个要素(或样本点(如果包含曲线))可免费用于分类的数据集是什么? 已经有一个关于免费数据集的社区Wiki: 查找免费可用的数据样本 但是在这里,最好有一个更集中的列表,可以更方便地使用它,我还建议以下规则: 每个数据集一个帖子 没有链接到数据集 每个数据集必须与 一个名称(弄清楚它的含义)和一个指向数据集的链接(可以使用包名称来命名R数据集) 特征数(假设为p),数据集的大小(假设为n)和标签/类的数量(假设为k) 根据您的经验(将使用的算法写成文字)或文献(在最后一种情况下,链接本文)得出典型的错误率

3
为什么不将t-SNE用作聚类或分类的降维技术?
在最近的一项作业中,我们被告知在MNIST数字上使用PCA将尺寸从64(8 x 8图像)减小到2。然后,我们不得不使用高斯混合模型对数字进行聚类。仅使用2个主要成分的PCA不会产生不同的聚类,因此该模型无法产生有用的分组。 但是,使用带有2个组件的t-SNE,可以更好地分离群集。当将高斯混合模型应用于t-SNE组件时,会产生更多不同的簇。 在下面的图像对中,可以看到具有2个分量的PCA和具有2个分量的t-SNE的差异,其中将变换应用于MNIST数据集。 我已经读到t-SNE仅用于高维数据的可视化(例如在此答案中),但是鉴于其产生的簇不同,为什么不将其用作降维技术,然后将其用于分类模型或一个独立的群集方法?

3
如何解释随机森林模型中准确度的均值下降和GINI的均值下降
我在理解如何解释“随机森林”软件包的可变重要性输出时遇到了一些困难。准确度的平均下降通常被描述为“由于置换每个特征中的值而导致的模型准确度的下降”。 这是关于整个功能还是关于功能中的特定值的声明?在这两种情况下,通过从模型中删除有问题的特征(或特征中的值)而将未正确分类的观测值的数量或比例平均准确率降低了吗? 假设我们有以下模型: require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 



6
文字的统计分类
我是一个没有统计背景的程序员,并且我目前正在针对要分类为预定义类别的大量不同文档寻找不同的分类方法。我一直在阅读有关kNN,SVM和NN的文章。但是,我在入门时遇到了一些麻烦。您推荐什么资源?我确实很了解单变量和多变量演算,所以我的数学应该足够强大。我还拥有Bishop关于神经网络的书,但是作为入门,它已经被证明有些密集。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.