Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

3
有监督的聚类或分类?
第二个问题是,据我所知,我在网络上某处的讨论中发现“有监督的聚类”,而聚类是无监督的,那么“有监督的聚类”的确切含义是什么?关于“分类”有什么区别? 有很多链接在谈论这一点: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf 等...

3
高度不平衡数据的分类/评估指标
我处理欺诈检测(类似信用评分)问题。因此,欺诈性观察与非欺诈性观察之间存在高度不平衡的关系。 http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall或kappa两者似乎都是不错的选择: 证明此类分类器结果的一种方法是将它们与基准分类器进行比较,并表明它们确实比随机机会预测好。 据我了解,kappa由于考虑了随机机会,因此这可能是稍微更好的选择。从科恩用简单的英语写的kappa中,我了解到这kappa涉及信息获取的概念: [...] 80%的观测精度令人印象深刻,预期精度为75%,而预期精度为50%[...] 因此,我的问题是: 假设kappa是更适合此问题的分类指标是正确的吗? 简单地使用可以kappa防止不平衡对分类算法的负面影响吗?是否仍需要重新(向下/向上)采样或基于成本的学习(请参阅http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?

3
解释部分依赖图的y轴
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我已经阅读了有关局部依赖图的其他主题,其中大多数都是关于如何使用不同的程序包实际绘制它们,而不是如何准确地解释它们,所以: 我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量(χc)的平均影响来衡量变量χs对函数ƒS(χS)的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是,我对这种定性解释不满意。 我的模型(随机森林)正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量,已被证明是一个很好的变量。 我开始认为Y值显示出正确分类的可能性。示例:y(0.2)表明TRI值>〜30时,有20%的机会正确识别True Positive分类。 相反地 y(-0.2)显示TRI值<〜15具有20%的机会正确识别真阴性分类。 文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”,仅此而已。对于可能潜在地谈论您的数据太多的情节来说,这听起来很模糊和毫无意义。 另外,我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗? 我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了? 我已经非常详尽地阅读了统计学习的要素:数据挖掘,推理和预测,这是一个很好的起点,但仅此而已。

4
邵的留一法交叉验证的结果何时适用?
邵军在他的论文中通过交叉验证选择线性模型,表明对于多元线性回归中的变量选择问题,留一法交叉验证(LOOCV)的方法“渐近不一致”。用简单的英语来说,它倾向于选择变量太多的模型。Shao在模拟研究中表明,即使只有40个观察结果,LOOCV的表现也不能胜过其他交叉验证技术。 这篇论文有些争议,有些忽略了(发表10年后,我的化学计量学同事从未听说过,并且很乐意使用LOOCV进行变量选择...)。还有一种信念(对此我有罪),其结果超出了最初的有限范围。 那么问题是:这些结果延伸到多远?它们适用于以下问题吗? 逻辑回归/ GLM的变量选择? Fisher LDA分类的变量选择? 使用具有有限(或无限)内核空间的SVM进行变量选择? 比较模型中的分类,比如说使用不同内核的SVM? 比较线性回归模型,比如说将MLR与Ridge回归进行比较? 等等

2
为不平衡数据的逻辑回归增加权重
我想用不平衡的数据(9:1)对逻辑回归建模。我想尝试glmR函数中的weights选项,但是我不确定100%会做什么。 可以说我的输出变量是c(0,0,0,0,0,0,0,0,0,1)。现在我想给“ 1”增加10倍的重量。所以我给出权重的论点weights=c(1,1,1,1,1,1,1,1,1,1,1,10)。 当我这样做时,将在最大似然计算中考虑它。我对吗?错误分类“ 1”比错误分类“ 0”仅差10倍。

3
从感知器规则到梯度下降:具有S型激活函数的感知器与逻辑回归有何不同?
本质上,我的问题是在多层感知器中,感知器具有S形激活功能。因此,在更新规则Ÿ计算公式为y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} 那么,这种“ S型”感知器与逻辑回归有何不同? 我要说的是一个单层乙状结肠感知等效于逻辑回归的意义上,二者使用ÿ = 1y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}更新规则中为 1 + exp (− w T x i)。此外,这两个返回sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})在预测。但是,在多层感知器中,与逻辑回归和单层感知器相比,使用S形激活函数来返回概率,而不是通断信号。 我认为“感知器”一词的用法可能有点含糊,所以让我根据对单层感知器的当前理解提供一些背景知识: 经典感知器规则 首先,是F. Rosenblatt的经典感知器,其中具有阶跃函数: Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}Δwd=η(yi−yi^)xidyi,yi^∈{−1,1}\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\} 更新权重 wk:=wk+Δwk(k∈{1,...,d})wk:=wk+Δwk(k∈{1,...,d})w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\}) …


5
如何控制随机森林中错误分类的成本?
是否有可能控制R包randomForest中错误分类的代价? 在我自己的工作中,误报(例如,由于一个人可能患有疾病而导致的错误失误)比误报的代价要高得多。软件包rpart允许用户通过指定损失矩阵来不同程度地加权错误分类,从而控制错误分类成本。是否有类似的东西存在randomForest?例如,我是否应该使用该classwt选项来控制Gini标准?


5
测试分类结果的重要性的正确方法是什么
在许多情况下,您可能需要训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的均值分类误差(即在双重嵌套的交叉验证之后),有时还会给出该分割误差的方差。但是,仅凭这一点还不足以说一个分类器明显优于另一个分类器。我已经看到许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等。 应该使用什么方法确定统计显着性?这个问题的根本是:我们应该对分类分数的分布做出什么假设?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
机器学习预测班级概率
我正在寻找可输出示例属于两个类之一的概率的分类器。 我知道逻辑回归和朴素的贝叶斯,但是您能告诉我其他类似的工作方式吗?也就是说,分类器不是预测示例所属的类,而是预测示例适合特定类的概率吗? 您可以分享关于这些不同分类器(包括逻辑回归和朴素贝叶斯)的优缺点的任何想法的加分。例如,对于多类别分类是否有更好的选择?

3
测试线性可分离性
有没有一种方法可以测试高维两类数据集的线性可分离性?我的特征向量长40。 我知道我总是可以进行逻辑回归实验,并确定命中率与误报率,以得出两类是否线性可分离的结论,但是最好知道是否已经存在标准方法来做到这一点。


1
集成学习的k折交叉验证
我对如何对数据进行分区以进行整体学习的k倍交叉验证感到困惑。 假设我有一个用于分类的整体学习框架。我的第一层包含分类模型,例如svm,决策树。 我的第二层包含一个投票模型,该模型结合了第一层的预测并给出了最终预测。 如果我们使用5折交叉验证,我正在考虑使用5折,如下所示: 3折训练第一层 1折训练第二层 1折测试 这是正确的方法吗?第一和第二层的训练数据是否应该独立?我认为它们应该是独立的,这样整体学习框架将很健壮。 我的朋友建议第一层和第二层的训练数据应该相同,即 4折训练第一层和第二层 1折测试 这样,我们将获得更准确的整体学习框架错误,并且该框架的迭代调整将更准确,因为它基于单个训练数据。而且,第二层可能偏向于独立训练数据 任何建议都将不胜感激

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.