Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

2
预测多个目标或类别?
假设我正在建立一个预测模型,在该模型中我试图预测多个事件(例如,掷骰子和掷硬币)。我熟悉的大多数算法都只能使用一个目标,因此我想知道是否存在针对此类问题的标准方法。 我看到两个可能的选择。也许最幼稚的方法是将它们简单地视为两个不同的问题,然后组合结果。但是,当两个目标不是独立的(在许多情况下它们可能非常依赖)时,这将带来严重的缺陷。 对我来说,更明智的方法是合并目标属性。因此,在骰子和硬币的情况下,我们将具有状态(等)。但是,这可能导致复合目标中的状态/类的数量变得相当大(很快,如果我们有2个骰子,等等)。此外,在一个属性是分类属性而另一个属性是数字属性的情况下,这似乎很奇怪(例如,如果预测温度和降水类型)。6⋅2=126⋅2=126\cdot 2=12(1,H),(1,T),(2,H)(1,H),(1,T),(2,H)(1, H), (1, T), (2, H) 有没有标准的方法来处理这类事情?另外,是否有专门设计的学习算法来处理此问题?

1
平均绝对误差的名称类似于Brier分数?
昨天的问题是确定模型的准确性,该模型估计事件的概率使我对概率评分感到好奇。 的石南木得分 是均方误差度量。类似的平均绝对错误性能是否测量 也有名字吗1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|


1
看到t-SNE很好地分离了类别后,应该使用哪种分类算法?
假设我们有一个分类问题,首先我们要从数据中获取一些见识,然后进行t-SNE。t-SNE的结果很好地分隔了各个类。这意味着可以建立分类模型,该模型也可以很好地分离类(如果t-SNE不能很好地分离,则意味着没有太大的区别)。 知道t-SNE专注于局部结构并且可以很好地分离类:什么是分类算法才能很好地解决此问题?Scikit建议使用具有高斯RBF内核的SVM,但还有哪些呢?

2
在二进制分类问题中优化auc vs logloss
我正在执行二进制分类任务,其中结果概率相当低(大约3%)。我正在尝试决定是否通过AUC或对数损失进行优化。据我所知,AUC最大化了模型区分类别的能力,而对数损失则惩罚了实际概率与估计概率之间的差异。在我的任务中,校准精度非常重要。所以我会选择logloss,但是我想知道最好的log-loss模型是否也应该是最好的AUC / GINI模型。

1
如何减少误报的数量?
我正在尝试解决名为“ 行人检测”的任务,并且在两个类别的积极因素(人,负面因素)的背景上训练二进制clasifer。 我有数据集: 正数= 3752 负数= 3800 我使用 带有参数的train \ test split 80 \ 20%和RandomForestClassifier形式scikit-learn: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) 我得到分数:95.896757% 测试训练数据(完美运行): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 对测试数据进行测试: true positive: 742 false positive: 57 false negative: 5 true negative: 707 我的问题是如何减少误报(背景分类为人)的数量?另外,为什么我的误报错误多于误报错误? 我尝试使用class_weight参数,但有时性能会下降(如class_weight = {0:1,1:4}所示)。 …

1
随机森林(或其他分类器)的分层分类
因此,我得到了大约60 x 1000的矩阵。我将其视为具有1000个特征的60个对象。这60个对象分为3类(a,b,c)。每个类别20个对象,我们知道真正的分类。我想在这60个训练示例集上进行有监督的学习,并且我对分类器的准确性(和相关指标)以及对1000个特征的特征选择都感兴趣。 首先,我的命名方式如何? 现在真正的问题是: 如我所述,我可以在上面添加随机森林,或者其他任何数量的分类器。但是有一个微妙之处-我真的只关心区分c类与a类和b类。我可以合并类a和b,但是有一种很好的方法来使用先验知识,即所有非c对象都可能形成两个不同的集群吗?我更喜欢使用随机森林或其变体,因为事实证明它对类似于我的数据有效。但是我可以说服我尝试其他方法。

3
极少量检测异常值
给定十二个样本亮度值,我需要获得尽可能精确的主要稳定光源的亮度值。传感器不完美,光线有时会“闪烁”变亮或变暗,可以忽略不计,因此我需要进行异常检测(我认为?)。 我已经在这里阅读了各种方法的一些知识,但无法决定采用哪种方法。离群数事先未知,通常为零。闪烁通常与稳定的亮度有很大的偏差(足以与当前存在的平均值相混淆),但不一定如此。 以下是12个测量值的示例集合,以确保问题的完整性: 295.5214、277.7749、274.6538、272.5897、271.0733、292.5856、282.0986、275.0419、273.084、273.1783、274.0317、290.1837 我的直觉是,尽管292和295看起来有点高,但在特定的集合中可能没有异常值。 因此,我的问题是,这里最好的方法是什么?我应该提到的是,这些值是从零(黑色)点取光的RG和B分量的欧几里得距离得出的。如果需要,返回到这些值在程序上会很痛苦,但有可能。欧几里德距离被用作“整体强度”的量度,因为我对颜色不感兴趣,而对输出强度不感兴趣。但是,我提到的闪烁有一个合理的机会与通常的输出具有不同的RGB组成。 目前,我正在玩某种功能,该功能会重复执行,直到通过以下方式达到允许的措施的稳定成员身份为止: 求标准偏差 将外面的所有内容说2个SD放入忽略列表 重新计算平均值和标准差(不包括忽略列表) 根据新的平均值和SD重新确定要忽略的人(评估所有12个) 重复直到稳定。 这种方法有什么价值? 感谢所有评论!



3
如何为多分类器建立混淆矩阵?
我有6个班级的问题。因此,我构建了一个多类分类器,如下所示:对于每个类,我都有一个Logistic回归分类器,使用“一个vs全部”,这意味着我有6个不同的分类器。 我可以为我的每个分类器报告一个混淆矩阵。但是,我想报告所有分类器的混淆矩阵,正如我在此处的许多示例中所看到的那样。 我该怎么做?我是否必须使用“一对一”算法而不是“一对一”算法来更改分类策略?因为在这些混淆矩阵上,报告指出了每个类别的误报。 多类混淆矩阵的示例 我想找到错误分类的物品数量。在第一行中,有137个类别1的示例被分类为1类,而13个类别1的示例被分类为2类。如何获得这个号码?


5
为什么我们拒绝0.05级而不是0.5级的原假设(就像我们在分类中所做的那样)
假设检验类似于分类问题。可以这么说,对于观察(主题),我们有2个可能的标签-有罪与无罪。令“非罪”为原假设。如果我们从分类的观点来看问题,我们将训练一个分类器,该分类器在给定数据的情况下预测受试者属于这两个分类中的每一个的概率。然后,我们将选择概率最高的类别。在那种情况下,0.5的概率将是自然阈值。如果我们将不同的成本分配给误报与误报错误,我们可能会更改阈值。但是很少有我们会极端地将阈值设置为0.05,即仅在概率为0.95或更高的情况下才将主体分配为“有罪”类别。但是如果我了解得很好,当我们将相同的问题视为假设检验的问题时,这就是我们作为标准实践所做的事情。在后一种情况下,仅当“非罪犯”的概率小于5%时,我们才不会分配标签“非罪犯”(等同于分配标签“有罪”)。如果我们真正想避免对无辜者定罪,也许这可能是有道理的。但是,为什么在所有领域和所有情况下都应遵循此规则? 确定采用哪种假设等同于在给定数据的情况下定义真相的估计量。在最大似然估计中,我们接受给定数据的可能性更高的假设-尽管绝对可能性更大,但不一定。参见下图: 如果预测变量的值大于3(例如4),则使用最大似然方法在此示例中我们会偏爱替代假设,尽管从零假设得出该值的可能性将大于0.05。 虽然我开始撰写该帖子的示例可能会引起感慨,但我们可以想到其他情况,例如技术改进。当数据告诉我们新解决方案是一种改进的可能性大于非新解决方案的可能性时,为什么要对状态现状给予这样的优势?

2
R中分类模型的增量学习
假设,我有一个分类器(可以是任何标准分类器,例如决策树,随机森林,逻辑回归等),可以使用以下代码进行欺诈检测 library(randomForest) rfFit = randomForest(Y ~ ., data = myData, ntree = 400) # A very basic classifier Say, Y is a binary outcome - Fraud/Not-Fraud 现在,我已经预测了一个看不见的数据集。 pred = predict(rfFit, newData) 然后,我从调查团队获得了有关我的分类的反馈,发现我犯了一个错误,将欺诈分类为“非欺诈”(即“ 一个假阴性”)。无论如何,我是否可以让我的算法理解它已经犯了一个错误?即是否可以在算法中添加反馈环,以便纠正错误? 我可以想到的一个选择就是构建一个,adaboost classifier以便新的分类器纠正旧分类器的错误。或我听到了Incremental Learning或的声音Online learning。中有任何现有的实现(包)R吗? 这是正确的方法吗?还是有其他方法可以调整模型而不是从头开始构建模型?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.