Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。


4
K折交叉验证中K的选择
我现在已经多次使用ķķK折交叉验证来评估某些学习算法的性能,但是对于如何选择的值,我一直感到困惑ķķK。 我经常看到并使用的值ķ= 10ķ=10K = 10,但是这对我来说似乎完全是任意的,我现在只是按习惯使用101010而不是仔细考虑。对我来说,随着值的增加,您似乎会获得更好的粒度ķķK,因此理想情况下,您应该将ķķK得很大,但是也有可能会产生偏差。 我想知道的值ķķK应该取决于什么,以及在评估算法时应该如何思考。如果我使用交叉验证的分层版本,是否会有所改变?

4
用简单的英语表达科恩的河童
我正在阅读一本数据挖掘书,其中提到了Kappa统计信息,作为评估分类器预测性能的一种手段。但是,我只是不明白这一点。我还检查了Wikipedia,但它也没有帮助:https : //en.wikipedia.org/wiki/Cohen's_kappa。 科恩的kappa如何帮助评估分类器的预测性能?这说明了什么? 我了解100%的kappa表示​​分类器与随机分类器完全一致,但是我不知道这对评估分类器的性能有何帮助? 40%的kappa是什么意思?这是否意味着40%的时间分类器与随机分类器一致?如果是这样,这对我有什么帮助或帮助我评估分类器?


7
为什么准确性不是评估分类模型的最佳方法?
这是一个一般性问题,在这里多次被间接问到,但缺少一个权威性的答案。对此有详细的答案将是很棒的参考。 准确度(正确分类在所有分类中所占的比例)是非常简单且非常“直观”的度量,但是对于不平衡的数据而言可能不是一个很好的度量。为什么我们的直觉会误导我们,并且此措施还有其他问题?


5
如何手动计算曲线下面积(AUC)或c统计量
我对手工计算二进制逻辑回归模型的曲线下面积(AUC)或c统计量感兴趣。 例如,在验证数据集中,我具有因变量的真实值(保留(1 =保留; 0 =不保留)),以及通过使用以下模型进行回归分析而生成的每个观察值的预测保留状态:使用训练集构建(范围从0到1)。 我最初的想法是确定模型分类的“正确”数目,然后将“正确”观察数除以总观察数即可计算出c统计量。通过“正确”,如果观察的真实保留状态= 1且预测的保留状态> 0.5,则为“正确”分类。另外,如果观察值的真实保留状态= 0并且预测的保留状态<0.5,则这也是“正确”的分类。我假设当预测值= 0.5时会出现“领带”,但在我的验证数据集中不会出现这种现象。另一方面,“不正确”分类将是观察的真实保留状态= 1且预测的保留状态<0。5或结果的真实保留状态= 0且预测的保留状态> 0.5。我知道TP,FP,FN,TN,但不知道在给定此信息的情况下如何计算c统计量。

3
如何生成k均值聚类分析结果的漂亮图?
我正在使用R进行K均值聚类。我正在使用14个变量来运行K均值 有什么漂亮的方法可以绘制K均值的结果? 是否有任何现有的实现? 具有14个变量会使绘制结果复杂吗? 我发现了一个叫做GGcluster的东西,它看上去很酷,但仍在开发中。我也阅读了一些有关sammon映射的内容,但并不太了解。这将是个好选择吗?

1
帮助我了解支持向量机
我了解支持向量机旨在将输入集分为几个不同类的基础知识,但是我不了解其中的一些细节。首先,我对Slack变量的使用有些困惑。他们的目的是什么? 我正在做一个分类问题,在该问题中,我从放在鞋垫上的传感器捕获了压力读数。在记录压力数据的同时,受试者将坐,站和走几分钟。我想训练一个分类器,以便能够确定一个人是坐着,站着还是走着,并能够对将来的任何测试数据进行分类。我需要尝试哪种分类器?对我来说,从捕获的数据中训练分类器的最佳方法是什么?我有1000个坐,站和行走条目(总计3x1000 = 3000),并且它们都具有以下特征向量形式。(来自传感器1的压力,来自传感器2的压力,来自传感器3的压力,来自传感器4的压力)

6
在机器学习中执行交叉验证时为“最终”模型选择特征
我对功能选择和机器学习有些困惑,我想知道您是否可以帮助我。我有一个微阵列数据集,该数据集分为两组并具有1000多个特征。我的目标是获得签名中的少量基因(我的特征)(10-20个),从理论上讲,我可以将其应用于其他数据集以对这些样本进行最佳分类。由于我没有那么多样本(<100),因此我没有使用测试和训练集,而是使用了留一法交叉验证来确定稳健性。我读过,应该对样本的每一部分进行特征选择,即 选择一个样本作为测试集 在其余样本上执行特征选择 使用所选功能将机器学习算法应用于剩余样本 测试测试集是否正确分类 转到1。 如果这样做,您每次可能会获得不同的基因,那么如何获得“最终”最优基因分类器呢?即第6步是什么。 我的意思是最理想的是任何进一步研究都应使用的基因集合。例如,假设我有一个癌症/正常数据集,我想找到将根据SVM对肿瘤类型进行分类的前10个基因。我想知道可以在进一步实验中使用的基因集和SVM参数,以查看其是否可以用作诊断测试。



4
为什么神经网络变得更深而不是更广泛?
近年来,卷积神经网络(或一般来说可能是深层神经网络)变得越来越深,最先进的网络从7层(AlexNet)到1000层(Residual Nets)在4的空间中年份。深度网络提高性能的原因在于,可以学习更复杂的非线性函数。如果有足够的训练数据,这将使网络更容易区分不同的类别。 但是,趋势似乎并没有随着每一层中参数的数量而变化。例如,尽管层数增加了很多,但是卷积层中的特征图的数量或完全连接层中的节点的数量仍然大致相同,并且大小仍然相对较小。但是从我的直觉来看,似乎增加每层参数的数量将使每一层都有更丰富的数据源,从中可以学习其非线性函数;但是这个想法似乎已经被忽略了,只支持简单地增加更多的层,每个层都有少量的参数。 因此,尽管网络已变得“更深”,但它们并没有变得“更广泛”。为什么是这样?



By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.