Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

3
矩形的VC尺寸
EthemAlpaydın撰写的《机器学习入门》一书指出,与轴对齐的矩形的VC维数为4。但是,矩形如何破碎由四个共线点组成的正负交集? 有人可以解释和证明矩形的VC尺寸吗?


1
使用LDA作为预处理步骤时的功能标准化
如果使用多类线性判别分析(或有时也阅读“多判别分析”)进行降维(或通过PCA进行降维后的变换),则我通常会理解为即使使用完全不同的比例尺测量功能也不需要,对吗?因为LDA包含类似于马哈拉诺比斯距离的术语,已经暗示了标准化的欧几里得距离? 因此,不仅没有必要,而且在LDA上标准化和非标准化功能的结果应该完全相同!

1
RandomForest-sklearn中的分类阈值
1)如何更改sklearn中RandomForest中的分类阈值(我认为默认值为0.5)? 2)如何在sklearn中进行欠采样? 3)我从RandomForest分类器中得到以下结果:[[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 平均/总计0.75 0.74 0.73 7076 首先,数据是不平衡的(0级为30%,1级为70%)。因此,我认为分类器更倾向于偏向于类别1,这意味着将类别从类别0转移到类别1(类别0的分类错误为1297,类别1的分类错误为520)。我怎样才能解决这个问题?缩减采样是否有帮助?或更改分类阈值? 更新:0级人口占40%,而1级人口占60%。但是,从0级到1级(1297)的漂移很高,而我希望它变低。

3
逻辑回归:最大化正阳性-误阳性
我有一个逻辑回归模型(通过弹性网络正则化通过R中的glmnet拟合),并且我想最大化真实肯定和错误肯定之间的差异。为此,请注意以下步骤: 拟合标准逻辑回归模型 使用预测阈值为0.5,确定所有积极预测 为肯定预测的观测值分配权重1,为所有其他权重分配权重0 拟合加权逻辑回归模型 这种方法有什么缺点?解决此问题的正确方法是什么? 希望最大程度地提高正负数之间的差异的原因是由于我的应用程序的设计。作为课堂项目的一部分,我正在在线市场上建立一个自主参与者-如果我的模型预测它可以购买某些东西并以后以更高的价格出售,它就会出价。我想坚持逻辑回归并根据固定成本和单价增量(我在每笔交易中获得或损失相同的金额)输出二进制结果(成功,失败)。误报会伤害我,因为这意味着我买了东西,无法以更高的价格出售。但是,错误的否定并不会伤害我(仅就机会成本而言),因为这仅意味着如果我不购买,但如果我有购买,我就可以赚钱。同样, 我同意0.5的临界值是完全任意的,并且当我在预测阈值上优化了步骤1中的模型时,该模型在真/假阳性之间产生了最大差异,结果接近0.4。我认为这是由于数据的偏斜性质-负数与正数之比约为1:3。 现在,我正在执行以下步骤: 将数据拆分为训练/测试 在训练中拟合模型,在测试集中进行预测并计算真假阳性之间的差异 完全拟合模型,在测试集中进行预测并计算真假阳性之间的差异 尽管训练集是全套的子集,但在步骤3中,正确/错误肯定之间的差异小于在步骤2中。由于我不在乎#3中的模型是否具有更多的真实负数和更少的虚假负数,因此我可以做些什么而无需更改似然函数本身?

2
结合敏感性和特异性的分类器性能指标?
我有2个类别的标签数据,正在使用多个分类器对其进行分类。并且数据集是很好平衡的。在评估分类器的性能时,我需要考虑分类器在确定真实肯定因素和真实否定因素方面的准确性。因此,如果我使用准确性,并且如果分类器偏向正值并将所有分类都归为正值,那么即使它未能对任何真实的负数进行分类,我也会获得约50%的准确性。此属性扩展到精度和召回率,因为它们仅关注一个类,而后又关注F1评分。(这是我什至从本文中了解的内容,例如“ 超越准确性,F分数和ROC:性能评估的判别方法系列 ”)。 因此,我可以使用敏感性和特异性(TPR和TNR)来查看分类器对每个类别的表现,以最大程度地提高这些值为目标。 我的问题是,我正在寻找一种将这两个值组合成一个有意义的量度的量度。我研究了该文件中提供的措施,但是发现它并不简单。基于我的理解,我想知道为什么我们不能应用像F分数这样的东西,但是我不使用精度和召回率而是使用灵敏度和特异性?因此公式为 ,我的目标是最大化这个措施。我觉得它很有代表性。已经有类似的公式吗?这是否有意义,或者在数学上是否合理?my Performance Measure=2∗sensitivity∗specificitysensitivity+specificitymy Performance Measure=2∗sensitivity∗specificitysensitivity+specificity \text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}

5
当接近100%的类别标签属于一个类别时,如何衡量分类器的性能?
在我的数据,我有一个类变量,记为。此类变量的值为(二进制)。几乎所有对观察都为0(接近100%,更准确地说是97%)。我想在不同的分类模型上进行“性能”测试(可能是准确性)。我担心发生的事情是,如果我有一个分类模型始终将任何观察结果分类为0类,那么该模型将具有97%的准确度(即使它从未考虑任何其他变量)。CCC0 ,10,1个{0, 1}CCC 是否存在针对处理非常罕见事件的数据的分类模型的众所周知的性能测试?

3
LDA与感知器
我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器,但是现在才学习LDA。 LDA如何“适应”监督学习算法系列?与其他方法相比,它的缺点可能是什么?它可能会更好地用于哪些方面?为什么要使用LDA,例如当人们只能使用感知器时?

2
用于二进制分类问题的哪个SVM内核?
我是支持向量机的初学者。是否有一些准则说明哪个内核(例如线性,多项式)最适合特定问题?就我而言,我必须根据网页是否包含某些特定信息对网页进行分类,即我存在二进制分类问题。 您能否总体说出最适合此任务的内核?还是我必须在特定的数据集上尝试其中的几个才能找到最佳数据集?顺便说一句,我正在使用利用libSVM库的Python库scikit-learn。

1
生存分析以进行事件预测
对于数据集中的每条记录,我都有以下信息 (X1 ,… ,Xm ,δ ,T )(X1 ,… ,Xm ,δ ,T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) 其中是要素,如果目标事件发生,为1,否则为0,为发生事件的时间戳。特别是,如果没有事件或未设定后续行动的时间,则可能会丢失。XiXiX_iδδ\deltaTTTTTT 我想为数据集中的每条记录计算一个风险指数。 我当时正在考虑使用功能来预测类的分类模型。但是,很重要:如果事件可能很快发生,则风险应该更高。XiXiX_iδδ\deltaTTTδδ\delta 这就是为什么生存分析应该适合这个问题的原因。我不需要的完整估计,而只需要一个代表单个记录风险的单个索引。S(t)=P(T>t)S(t)=P(T>t)S(t) = P(T>t) 可以为每条记录计算的平均生存时间似乎是一个不错的风险指数-风险越低越低。 我的问题是: 生存分析是否适合我的目的? 如何评估模型的性能? 关于问题(2):例如,我很想使用Harrell的 -index,但是我不确定要使用哪个预测结果来进行计算。从Harrell的书《回归建模策略》第247页:ccc 该指数[...]被拍摄到所有可能对这样一个主题作出回应,其他的都没有计算。该指数是这样的对的比例,其中响应者具有比非响应者更高的预测响应概率。ccc 如果发现生存分析是正确的选择,我认为使用某种标准方法引入时变协变量应该很容易。Xi(t)Xi(t)X_i(t)

2
从关系数据中学习
设置 许多算法对单个关系或表进行操作,而许多现实世界数据库将信息存储在多个表中(Domingos,2003年)。 问题 哪些类型的算法可以从多个(关系)表中很好地学习。特别是,我对适用于回归和分类任务的算法(而不是面向网络分析的算法,例如链接预测)感兴趣。 我知道下面列出了几种方法(但可以肯定的是我缺少了一些方法): 多关系数据挖掘(MRDM)(Dzeroski,2002) 归纳逻辑编程(ILP)(Muggleton,1992年) 统计关系学习(SRL)(Getoor,2007年) Džeroski,S。(2003)。多关系数据挖掘:简介。ACM SIGKDD勘探通讯。 Getoor,Lise和Ben Taskar编辑。统计关系学习简介。麻省理工学院出版社,2007。 S. Muggleton和C. Feng。逻辑程序的有效归纳。第一次算法学习理论会议论文集,第368–381页。1990年,东京,欧姆萨(Ohmsha)。

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
具有一个主要预测因子的分类
我有一个(级)分类问题,具有100个实值预测变量的数量级,其中一个似乎比其他任何一个都具有更多的解释能力。我想更深入地了解其他变量的影响。但是,标准的机器学习技术(随机森林,SVM等)似乎被一个强大的预测因素所淹没,并且没有给我提供很多有关其他方面的有趣信息。ķķk 如果这是一个回归问题,我将仅针对强预测变量进行回归,然后将残差用作其他算法的输入。我真的看不到如何将这种方法转换为分类上下文。 我的直觉是,这个问题必须相当普遍:是否有标准的处理方法?

2
从训练集中删除重复项以进行分类
假设我有很多关于分类问题的行: X1,...XN,YX1,...XN,YX_1, ... X_N, Y 其中是 /预测变量,是该行的要素组合所属的类。X1,...,XNX1,...,XNX_1, ..., X_NYYY 许多特征组合及其类在数据集中重复进行,我正在使用它来拟合分类器。我只是想知道是否可以删除重复项(我基本上group by X1 ... XN Y在SQL中执行a )?谢谢。 PS: 这是针对仅二进制存在的数据集,其中类先验非常偏斜

2
最先进的方法来查找时间序列的零均值部分
我有嘈杂的时间序列,我需要将其细分为平均值为零的那些部分和平均值为零的那些部分。尽可能准确地找到边界很重要(显然边界的确切位置有点主观)。我认为可以修改cusum变体来实现此目的,但是因为cusum主要是要找到单个更改,从而使整个细分策略完全无法解决。 我敢肯定,已经对此问题进行了很多研究,但未能找到它。 PS这些时间序列中的数据量非常大,即多达数亿个样本,单个样本可以是具有数百个分量的向量,因此可以合理快速计算的方法是一个重要因素。 PPS没有细分标签,因此没有分类标签。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.