Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

3
一个人应该使用什么损失函数来获得高精度或高召回率的二进制分类器?
我正尝试制作一个很少出现的物体(在图像中)检测器,计划使用在滑动/调整大小的窗口中应用的CNN二进制分类器。我已经构建了平衡的1:1正负训练和测试集(在这种情况下,这样做是对的吗?),分类器在测试集上的准确性很好。现在,我想控制分类器的召回率/精度,例如,它不会错误地标记过多的多数类事件。 明显的(对我来说)解决方案是使用与现在使用的相同的逻辑损失,但是通过将两种情况之一中的损失乘以某个常数,可以将I型和II型权重的误差乘以不同,这可以调整。这样对吗? PS第二个想法是,这等同于对一些训练样本进行加权。我认为,只增加一个班级就能达到相同的效果。

2
使用部分“未知”数据进行分类
假设我想学习一个分类器,该分类器将数字向量作为输入,并给类标签作为输出。我的训练数据由大量输入输出对组成。 但是,当我要测试一些新数据时,该数据通常仅部分完成。例如,如果输入向量的长度为100,则可能仅给30个元素提供值,其余的为“未知”。 例如,考虑在已知图像部分被遮挡的情况下进行图像识别。或考虑已知部分数据已损坏的一般意义上的分类。在所有情况下,我都确切知道数据向量中的哪些元素是未知部分。 我想知道如何学习适用于此类数据的分类器?我可以将“未知”元素设置为随机数,但是鉴于已知元素通常比已知元素更多,所以这听起来不是一个好的解决方案。或者,我可以将训练数据中的元素随机更改为“未知”,并使用这些而不是完整的数据进行训练,但这可能需要详尽地采样已知和未知元素的所有组合。 我特别在考虑神经网络,但是我对其他分类器持开放态度。 有任何想法吗?谢谢!

1
最小风险分类器的计算阈值?
假设两个类和具有属性并具有分布和。如果我们对于以下成本矩阵具有相等的先验:C1C1C_1C2C2C_2xxxN(0,0.5)N(0,0.5) \cal{N} (0, 0.5)N(1,0.5)N(1,0.5) \cal{N} (1, 0.5)P(C1)=P(C2)=0.5P(C1)=P(C2)=0.5P(C_1)=P(C_2)=0.5 L=[010.50]L=[00.510]L= \begin{bmatrix} 0 & 0.5 \\ 1 & 0 \end{bmatrix} 为什么是最低风险(成本)分类器的阈值?x0&lt;0.5x0&lt;0.5x_0 < 0.5 这是我误会的注释示例(即,如何达到此阈值?) 编辑1:我认为对于似然比的阈值,我们可以使用P(C1)/ P(C2)。 编辑2:我从Duda Book on Pattern上添加了一些有关阈值的文本。


3
交叉验证分类准确性的置信区间
我正在研究一个分类问题,该问题计算两个输入X射线图像之间的相似性度量。如果图像属于同一个人(标签为“正确”),则将计算更高的度量;两个不同人的输入图像(标签为“错误”)将导致较低的指标。 我使用分层的10倍交叉验证来计算错误分类的概率。我当前的样本大小约为40个正确匹配和80个错误匹配,其中每个数据点都是计算得出的指标。我得到的误分类概率为0.00,但是我需要对此进行某种置信区间/错误分析。 我正在研究使用二项式比例置信区间(在此情况下,将交叉验证的结果用作成功次数的正确标记或错误标记)。但是,二项式分析背后的假设之一是每个试验的成功概率相同,并且我不确定交叉验证中“正确”或“错误”分类背后的方法是否可以认为具有成功几率相同。 我能想到的唯一其他分析是重复进行交叉验证X次并计算分类误差的均值/标准差,但是我不确定这是否合适,因为我会重复使用我的数据相对较小的样本数倍。 有什么想法吗?我正在使用MATLAB进行所有分析,并且确实有“统计”工具箱。非常感谢您的协助!

1
使用交叉验证时平均精度和召回率
我已经使用多个分类器对2类标签数据进行了分类,并且使用了5倍交叉验证。对于每一次折叠,我都计算了tp,tn,fp和fn。然后,我计算了每个测试的准确性,准确性,召回率和F分数。我的问题是,当我想对结果进行平均时,我对精度进行了平均,但我是否也可以对精度,查全率和F评分进行平均?还是这在数学上是错误的?PS在每个类中使用的数据集在每个类的实例数方面都非常均衡。 谢谢。

2
时间序列分类-非常差的结果
我正在研究时间序列分类问题,其中输入的是手机帐户前21天的时间序列语音使用数据(以秒为单位)。相应的目标变量是该帐户是否在35-45天范围内被取消。因此,这是一个二进制分类问题。 到目前为止,我尝试过的所有方法(在不同程度上)的效果都非常差。首先,我尝试了k-NN分类(进行了各种修改),但结果却非常糟糕。这使我从时间序列中提取特征-即均值,方差,最大值,最小值,总零天,总尾随零天,上半年平均值与下半年平均值之间的差等,而最具预测性的特征似乎是总计零天和总尾随零天(使用几种分类算法)。这表现最好,但是性能仍然不是很好。 我的下一个策略是对我的训练集中的负面实例进行过度采样,因为它们很少。这导致更正确的抵消预测,但以更多的假阳性为代价。 我开始认为,时间序列使用情况数据本身可能并不能很好地预测(尽管常识认为应该如此)。也许有些潜在的变量我没有考虑。查看数据还显示出一些奇怪的行为。即,一些示例显示很少使用或减少使用(有时甚至根本不使用)并且不取消,而一些示例显示使用取消的使用量增加。也许这种矛盾的行为不会为分类器产生非常清晰的决策边界。 另一个可能的错误来源是许多训练示例都很稀疏(即许多天使用0的事实)。我还没有尝试过的一个想法是将时间序列分成多个部分并以这种方式生成一些功能,但是我并不抱有很大希望。


2
分类问题中类可分离性的度量
Fisher的线性判别率是衡量线性判别学习者班级可分离性的一个很好的例子。还有其他有用的指标来确定功能集是否在目标变量之间提供了良好的类分离吗?特别是,我有兴趣寻找良好的多变量输入属性以最大程度地实现目标类别的分离,并且最好采用非线性/非参数度量来快速确定它们是否提供良好的可分离性。

3
逻辑回归中变量的重要性
我可能正在处理一个可能已经解决了一百次的问题,但是我不确定在哪里可以找到答案。 当使用逻辑回归时,给定许多特征并尝试预测二进制分类值,我对选择可以很好地预测的特征子集感兴趣。 y yX1个,。。。,Xñx1,...,xnx_1,...,x_nÿyyÿyy 是否可以使用类似于套索的程序?(我只看到套索用于线性回归。) 查看拟合模型的系数是否表明了不同特征的重要性? 编辑-看到一些答案后的澄清: 当我指的是拟合系数的大小时,我指的是那些拟合到归一化(均值0和方差1)特征的系数。否则,正如@probabilityislogic指出的那样,1000x的重要性似乎不如x。 我对仅寻找最佳k子集(如@Davide所提供的)不感兴趣,而是权衡不同功能之间的相对重要性。例如,一个特征可能是“年龄”,而另一个特征可能是“年龄&gt; 30”。它们的增量重要性可能很小,但两者都可能很重要。

2
将Adaboost与SVM一起使用进行分类
我知道Adaboost会尝试使用一组弱分类器的线性组合来生成强分类器。 但是,我读过一些论文,建议Adaboost和SVM在某些条件和情况下可以协调工作(即使SVM是强大的分类器)。 从体系结构和编程的角度看,我无法把握它们如何结合使用。我读过许多论文(也许是错误的论文),但并没有清楚地解释它们如何协同工作。 有人可以阐明他们如何结合使用以进行有效分类吗?指向一些论文/文章/期刊的指针也将不胜感激。

4
可以通过删除一些连接来获得更好的ANN?
我想知道在某些情况下,如果您修剪掉一些与它们之间的联系,ANN是否有可能表现得更好? 通过并行获取两个多层ANN A和B(相同的输入和输出节点)来构造一个ANN,在A和B的隐藏层之间添加一些“通信”连接? 能否获得更好的泛化结果? 这是在实践中以某种方式使用的,还是总是只使用多层的全连接网络?

1
将2类模型扩展到多类问题
关于Adaboost的这篇论文提出了一些建议和代码(第17页),以将2类模型扩展到K类问题。我想对此代码进行概括,以便我可以轻松地插入不同的2类模型并比较结果。由于大多数分类模型都具有公式界面和predict方法,因此其中某些应该相对容易。不幸的是,我还没有找到从2类模型中提取类概率的标准方法,因此每个模型都需要一些自定义代码。 这是我编写的用于将K类问题分解为2类问题并返回K模型的函数: oneVsAll &lt;- function(X,Y,FUN,...) { models &lt;- lapply(unique(Y), function(x) { name &lt;- as.character(x) .Target &lt;- factor(ifelse(Y==name,name,'other'), levels=c(name, 'other')) dat &lt;- data.frame(.Target, X) model &lt;- FUN(.Target~., data=dat, ...) return(model) }) names(models) &lt;- unique(Y) info &lt;- list(X=X, Y=Y, classes=unique(Y)) out &lt;- list(models=models, info=info) class(out) &lt;- 'oneVsAll' return(out) } 这是我编写的一种预测方法,用于遍历每个模型并进行预测: predict.oneVsAll &lt;- …

3
电影收视率预测的分类模型
我对数据挖掘有些陌生,并且正在研究用于电影收视率预测的分类模型。 我已经从IMDB收集了数据集,并计划在模型中使用决策树和最近邻方法。我想知道哪种免费的数据挖掘工具可以提供我需要的功能。

2
将分类树(部分)组织成一组规则?
一旦使用rpart(在R中)构造了复杂的分类树,是否有办法组织为每个类生成的决策规则?因此,对于每一个类,我们都有一套规则,而不是得到一棵大树? (如果是,如何?) 这是一个简单的代码示例,显示以下示例: fit &lt;- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) 谢谢。
11 r  classification  cart  rpart 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.