统计和大数据 classification

1

我想比较2个不同的分类器，以解决使用大型训练数据集的多类文本分类问题。我怀疑我应该使用ROC曲线还是学习曲线来比较这两个分类器。一方面，学习曲线对于确定训练数据集的大小很有用，因为您可以找到分类器停止学习（并可能降级）的数据集的大小。因此，在这种情况下，最好的分类器可能是精度最高，数据集大小最小的分类器。另一方面，ROC曲线可让您在灵敏度/特异性之间找到适当权衡的点。在这种情况下，最好的分类器就是最接近左上角的分类器，它是所有FPR中最高的TPR。我应该同时使用两种评估方法吗？学习曲线较好的方法的ROC曲线是否可能变差，反之亦然？

11 machine-learning classification roc accuracy

4

AUC是否有可能正确分类每个类别中随机选择的实例？

我在纸上阅读了此标题，但从未在其他地方看到过这种方式描述的AUC。这是真的？有没有证明或简单的方法可以看到这一点？图2显示了根据接收器工作特性曲线（AUC）下的面积表示的二分变量的预测精度，这相当于正确地将每个类别中的两个随机选择的用户正确分类的概率（例如，男性和女性））。在我看来，这不是真的，因为对于AUC = 0.5，以上内容表明一个人有50％的概率连续两次正确预测一次硬币翻转，但实际上，您只有25％的机会正确预测连续两次硬币翻转的过程。至少，我就是这么想的。

11 classification roc auc

2

f-measure是准确性的代名词吗？

我了解f量度（基于精度和召回率）是对分类器的准确性的估计。同样，当我们有不平衡的数据集时，f度量优于准确性。我有一个简单的问题（更多是关于使用正确的术语，而不是技术）。我的数据集不平衡，并且在实验中使用了f-measure。我准备写一篇不适合机器学习/数据挖掘会议的论文。因此，在这种情况下，我可以准确地同义地指代f度量。例如，我的f值为0.82，那么我可以说我的分类器达到了82％的准确预测吗？

11 machine-learning classification data-mining unbalanced-classes accuracy

5

为什么要不惜一切代价避免装仓？

因此，我读了几篇关于为什么应始终避免合并的文章。该链接的流行参考是此链接。主要的缺点是分档点（或切点）相当随意，并且会导致信息丢失，因此应首选样条线。但是，我目前正在使用Spotify API，该API对它们的某些功能有很多连续的置信度度量。看一下“工具性”这一功能，引用指出：预测曲目是否不包含人声。在这种情况下，“哦”和“啊”的声音被视为乐器。说唱或说出的单词轨迹显然是“声音”。器乐性值越接近1.0，则曲目中没有人声内容的可能性越大。高于0.5的值旨在表示乐器轨迹，但随着该值接近1.0，置信度更高。考虑到我的数据分布非常偏左（大约90％的样本几乎不超过0，我发现将此功能转换为两个分类特征是明智的：“ instrumental”（所有值均大于0.5的样本）和“ non_instrumental” ”（对于所有小于0.5的样本）。错了吗当我几乎所有（连续）数据都围绕一个值旋转时，将会有什么选择呢？根据我对样条曲线的了解，它们也不能解决分类问题（我在做什么）。

10 classification categorical-data continuous-data splines binning

3

您何时会在分类中使用PCA而不是LDA？

我正在阅读这篇文章，了解主成分分析和多重判别分析（线性判别分析）之间的区别，并且我试图理解为什么您会使用PCA而不是MDA / LDA。解释总结如下：粗略地讲，在PCA中，我们试图找到数据散布最大的方差最大的轴（在一个类内，因为PCA将整个数据集视为一个类），而在MDA中，我们额外在最大化各类之间的散布。您不是总想同时最大化方差和最大化类之间的差异吗？

10 classification pca dimensionality-reduction discriminant-analysis

1

在训练过程中，神经网络通常需要一段时间来“踢”吗？

我正在尝试使用反向传播训练深度神经网络进行分类。具体来说，我使用Tensor Flow库将卷积神经网络用于图像分类。在训练过程中，我遇到一些奇怪的行为，我只是想知道这是否很典型，或者我做错了什么。因此，我的卷积神经网络有8层（5层卷积，3层完全连接）。所有权重和偏差均以较小的随机数初始化。然后，我设置步长，并使用Tensor Flow的Adam Optimizer进行小批量训练。我正在谈论的奇怪行为是，对于我的训练数据中的前10个循环，训练损失通常不会减少。权重正在更新，但训练损失大致保持在大约相同的值，有时在小批之间增加或减少。它会保持这种状态一段时间，并且我总是给人以损失永远不会减少的印象。然后，突然之间，训练损失急剧减少。例如，在训练数据的大约10个循环内，训练精度从大约20％变为大约80％。从那时起，一切最终都很好地融合在一起。每当我从头开始运行训练管道时，都会发生相同的事情，下面的图表说明了一个示例运行。因此，我想知道的是，这是通过训练深度神经网络进行的正常行为，从而需要一段时间才能“踢进”。还是我做错了某件事导致了此延迟？非常感谢！

10 machine-learning classification neural-networks conv-neural-network tensorflow

3

RBF SVM用例（对比逻辑回归和随机森林）

具有径向基函数内核的支持向量机是一种通用的监督分类器。虽然我知道这些SVM的理论基础及其优点，但我不知道它们是首选方法的情况。那么，RBF SVM是否比其他ML技术优越呢？（无论是在得分方面，还是其他方面-诸如健壮性，入门容易性，可解释性等）我在问，因为我的默认方法围绕逻辑回归（也许有些交互作用），随机森林和一些神经网络。我做ML的所有朋友（有些是Kaggle赢家）都不是SVM用户（但这可能是我所在社区的产物，或者是他们处理的问题）。

10 machine-learning logistic classification svm random-forest

4

线性分类器过度拟合

今天，我们的教授在课堂上说：“不可能过度拟合线性分类器”。我认为这是错误的，因为即使线性分类器也可能对训练集中的离群值敏感-以硬边距支持向量机为例：一个嘈杂的数据点可以更改将使用哪个超平面来分离数据集。还是我错了？显然，由于模型复杂度较低，线性可能会防止过度拟合，但我仍然不明白为什么过度拟合是不可能的。还有一点是，当我试图考虑这个问题时，我意识到“过拟合”似乎没有被正式定义。这是为什么？训练和测试集性能之间的某种距离度量是否可以使这种形式化？谢谢

10 classification overfitting

2

将PCA应用于测试数据以进行分类

我最近了解了出色的PCA，并完成了scikit-learn文档中概述的示例。我想知道如何将PCA应用于新数据点以进行分类。在二维平面（x，y轴）上可视化PCA之后，我看到我可能可以画一条线来分隔数据点，以便一侧将属于一种分类，而另一侧则属于另一种分类。如何绘制此“边界”并将其应用于新数据点？

10 classification pca scikit-learn

1

不平衡数据集的ROC曲线

考虑输入矩阵和二进制输出y。XXXyyy 衡量分类器性能的一种常用方法是使用ROC曲线。在ROC图中，对角线是从随机分类器获得的结果。在输出不平衡的情况下，可以选择具有不同概率的0或1来改善随机分类器的性能。yyy000111 如何在ROC曲线图中表示此类分类器的性能？我想应该是一条具有不同角度的直线，而不是对角线了吗？

10 classification roc unbalanced-classes

2

如何更改R randomForests中的分类阈值？

所有物种分布建模文献都认为，当使用输出概率的模型（例如，RandomForests）预测物种的存在/不存在时，选择阈值概率来将物种实际分类为存在或不存在很重要，应该并不总是依赖默认值0.5。我需要一些帮助！这是我的代码： library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

10 r classification random-forest threshold

3

如何可视化贝叶斯拟合优度进行逻辑回归

对于贝叶斯逻辑回归问题，我创建了后验预测分布。我从预测分布中进行采样，对于每个观测值，我都会收到数千个（0,1）的采样。可视化拟合优度并不有趣，例如：此图显示了1万个样本+观察到的基准点（左侧的一条可以画出一条红线：是的，是观察值）。问题在于该图很难提供信息，我将使用其中的23个，每个数据点一个。是否有更好的方法可视化23个数据点以及后面的样本。另一尝试：基于纸张的另一种尝试这里

10 bayesian data-visualization classification goodness-of-fit binary-data

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

“学习模型”一词从何而来

我经常听到这里的数据挖掘者使用这个术语。作为从事分类问题的统计学家，我熟悉术语“训练分类器”，并且我认为“学习模型”的意思是相同的。我不介意“训练分类器”。这似乎描绘了拟合模型的想法，因为训练数据用于获得模型参数的良好或“改进的”估计。但是，学习会获得知识。用简单的英语来说，“学习模型”就是要知道它是什么。但是实际上，我们从不“知道”模型。模型近似于现实，但没有模型是正确的。就像Box所说的：“没有正确的模型，但有些有用。” 我想听听数据挖掘者的回应。该术语是如何产生的？如果使用它，为什么喜欢它？

10 classification data-mining terminology model

1

树状图聚类的词法相关

考虑树状图聚类的上下文。让我们称原始差异为个体之间的距离。构建完树状图后，我们将两个个体之间的同态差异定义为这些个体所属的簇之间的距离。有人认为，原始差异和同类差异之间的相关性（称为“ 相关性相关性”）是分类的“适用性指标”。这听起来让我很困惑。我的反对意见不依赖于Pearson相关性的特定选择，而是基于这样的一般思想，即原始差异和同义差异之间的任何联系都可能与分类的适用性有关。您是否同意我的观点，或者您是否可以提出一些论点来支持使用cophenetic相关性作为树状图分类的适用性指标？

10 clustering classification

Questions tagged «classification»