Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

3
在分类中选择不同的损失函数以近似0-1损失有什么影响
我们知道有些目标函数更容易优化,而有些则很难。而且我们有很多损失函数要使用但很难使用,例如0-1损失。因此,我们找到了一些代理丢失功能来完成这项工作。例如,我们使用铰链损失或逻辑损失来“近似” 0-1损失。 接下来的情节来自克里斯·毕晓普(Chris Bishop)的PRML书。铰链损耗用蓝色绘制,对数损耗用红色绘制,平方损耗用绿色绘制,0/1误差用黑色绘制。 我了解我们之所以设计(针对铰链和逻辑损失)的原因是我们希望目标函数是凸的。 通过查看铰链损失和逻辑损失,它会对严重错误分类的实例进行更严厉的处罚,有趣的是,如果分类不正确,则还会对正确分类的实例进行惩罚。这是一个非常奇怪的设计。 我的问题是,通过使用不同的“代理损失函数”(例如铰链损失和物流损失),我们需要支付的价格是多少?

5
什么会导致PCA恶化分类器的结果?
我有一个要进行交叉验证的分类器,还有一百个要进行正向选择以查找特征的最佳组合的特征。我还将这与PCA进行的相同实验进行了比较,在该实验中,我采用了潜在特征,应用了SVD,将原始信号转换到新的坐标空间,并在前向选择过程中使用了前特征。ķķk 我的直觉是PCA会改善结果,因为信号比原始功能更具“信息性”。我对PCA的幼稚理解是否会使我陷入麻烦?有人能提出PCA在某些情况下可以改善结果,而在另一些情况下却会恶化结果的一些常见原因吗?

1
交叉验证是否可以替代验证集?
在文本分类中,我有一个约800个样本的训练集和一个约150个样本的测试集。测试仪从未使用过,一直等到最后使用。 我正在使用整个800个样本训练集,并在调整和调整分类器和功能时进行10倍交叉验证。这意味着我没有单独的验证集,但是每次用完10折后,都会自动选择一个验证集。 当我对所有事情都感到满意并想要进入评估的最后阶段之后,我将对全部800个样本进行分类训练。并在150个样本测试仪上进行测试。 我理解交叉验证在文本分类中的这种用法正确吗?这种做法有效吗? 交叉验证的另一个问题是: 而不是10倍,我还尝试将其作为性能的一般指标。因为对于遗忘一事,不可能获得有关f1 /精确度/召回率的信息,所以我想知道遗忘一事的准确性与10倍的度量之间的关系是什么? 任何见解将不胜感激。 编辑: 这是对交叉验证的很好介绍。它还参考了其他研究论文。

4
使用CART时如何衡量/排列“可变重要性”?(特别是使用R中的{rpart})
当使用rpart(在R中)构建CART模型(特别是分类树)时,通常很有趣的一点是,了解引入模型的各种变量的重要性。 因此,我的问题是: 对于CART模型中的参与变量的排名/衡量变量重要性,存在哪些常用措施?以及如何使用R来计算(例如,使用rpart包时) 例如,下面是一些伪代码,它们是创建的,以便您可以在上面显示解决方案。此示例经过结构设计,很明显变量x1和x2是“重要的”,而(在某种意义上)x1比x2更重要(因为x1应该适用于更多情况,因此对数据结构的影响更大,然后x2)。 set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- rnorm(n) x5 <- rnorm(n) X <- data.frame(x1,x2,x3,x4,x5) y <- sample(letters[1:4], n, T) y <- ifelse(X[,2] < -1 , "b", y) y <- ifelse(X[,1] < 0 , "a", y) require(rpart) fit <- …

7
在朴素贝叶斯(Naive Bayes)中,当我们在测试集中有未知单词时,为什么还要打扰Laplace平滑?
我今天正在阅读朴素贝叶斯分类法。我在Parameter Estimation的标题下加上了1 smoothing进行了阅读: 令指代一个类(例如正或负),而令指代一个标记或单词。cccwww 用于最大似然估计是P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words in class c.\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}. 这种估计可能会产生问题,因为它会使单词未知的文档的概率为。解决此问题的常用方法是使用拉普拉斯平滑。P(w|c)P(w|c)P(w|c)000 令V为训练集中的单词集合,向单词集合添加一个新元素(未知)。UNKUNKUNK 定义P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=count(w,c)+1count(c)+|V|+1,P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1}, 其中表示词汇表(训练集中的单词)。VVV 特别是,任何未知单词的概率都为 1count(c)+|V|+1.1count(c)+|V|+1.\frac{1}{\text{count}(c) + |V| + 1}. 我的问题是:为什么我们要完全不理会Laplace平滑处理?如果我们在测试集中遇到的这些未知单词的概率显然几乎为零,即,将它们包括在模型中有什么意义?为什么不忽略它们并删除它们呢? …

2
什么时候使用不正确的评分规则?
Merkle&Steyvers(2013)写道: 为了正式定义适当的评分规则,令为具有真正成功概率的伯努利试验的概率预测。正确的评分规则是如果其期望值最小的度量。FFfdddpppF= pF=pf = p 我认为这很好,因为我们希望鼓励预报员生成诚实地反映其真实信念的预报,而又不想给他们不利的动机以其他方式这样做。 在现实世界中,有没有适合使用不正确评分规则的示例? 参考文献 Merkle,EC和Steyvers,M.(2013年)。选择严格正确的评分规则。决策分析,10(4),292-304

1
svm中的一对多和一对多?
一对一和一对一SVM分类器有什么区别? “一对多”是指一个分类器对新图像的所有类型/类别进行分类,而一对多是指新图像的每种类型/类别用不同的分类器进行分类(每个类别均由特殊分类器处理)吗? 例如,如果将新图像分类为圆形,矩形,三角形等。

2
判别分析的三种版本:差异及其使用方法
谁能解释差异并给出具体示例如何使用这三种分析? LDA-线性判别分析 FDA-Fisher的判别分析 QDA-二次判别分析 我到处搜索,但找不到具有真实值的真实示例来查看如何使用这些分析和计算数据,只有大量公式,如果没有任何真实示例就很难理解。我试图理解,很难区分哪些方程式/公式属于LDA,哪些属于FDA。 例如,假设有这样的数据: x1 x2 class 1 2 a 1 3 a 2 3 a 3 3 a 1 0 b 2 1 b 2 2 b 并说一些测试数据: x1 x2 2 4 3 5 3 6 那么,如何通过这三种方法使用此类数据?最好看看如何手动计算所有内容,而不是使用一些数学软件包来计算幕后的所有内容。 PS我只找到了本教程:http : //people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA。它显示了如何使用LDA。

2
神经网络:对于二进制分类,使用1或2个输出神经元?
假设我要进行二进制分类(属于A类或B类)。在神经网络的输出层中可以执行以下操作: 使用1个输出节点。输出0(<0.5)被视为A类,输出1(> = 0.5)被视为B类(在S型情况下) 使用2个输出节点。输入属于具有最高值/概率(argmax)的节点的类别。 是否有书面论文对此进行了讨论?要搜索哪些特定关键字? 这个问题已经在此站点上问过,例如,看到此链接时没有真实答案。我需要做出选择(硕士论文),因此我想深入了解每种解决方案的优点/缺点/局限性。

4
具有连续和分类特征的预测
一些预测建模技术更适合处理连续的预测变量,而另一些则更适合处理分类变量或离散变量。当然,存在将一种类型转换为另一种类型的技术(离散,伪变量等)。但是,是否有任何设计用来同时处理两种类型的输入而无需简单地转换要素类型的预测建模技术?如果是这样,这些建模技术是否倾向于在更适合它们的数据上更好地工作? 最接近的事,我知道的是,通常决策树处理离散数据很好,他们处理连续的数据,而不需要在前面离散化。但是,这并不是我一直在寻找的东西,因为有效地分割连续特征只是动态离散化的一种形式。 作为参考,以下是一些相关的,不可重复的问题: 预测连续变量时应如何实施决策树拆分? 当我将分类预测变量和连续预测变量混合使用时,可以使用多元回归吗? 将分类数据视为连续的有意义吗? 连续和分类变量数据分析

1
是否有结合分类和回归的算法?
我想知道是否有任何算法可以同时进行分类和回归。例如,我想让算法学习一个分类器,同时在每个标签内,它也学习一个连续的目标。因此,对于每个训练示例,它都具有分类标签和连续值。 我可以先训练一个分类器,然后再在每个标签中训练一个回归器,但是我只是在想,如果有一种算法可以同时实现这两个功能,那就太好了。

5
最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?
假设我正在回归。为什么通过选择X的前k个主成分,模型对Y保持预测能力?ÿ〜XY∼XY \sim XķkkXXXÿYY 从降维/特征选择的角度来看,如果我理解。。。v k是X的协方差矩阵的特征向量,具有最高k个特征值,则X v 1,X v 2。。。X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1个,v2,。。。vķv1,v2,...vkv_1, v_2, ... v_kXXXķkkXv1个,Xv2。。。XvķXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kķkkķkk 但是,为什么前分量保留对Y的预测能力?ķkkÿYY 如果我们谈论的一般OLS ,没有理由认为,如果功能ž 我有最大方差,然后ž 我对大多数预测能力Ÿ。ÿ〜žY∼ZY \sim Zž一世ZiZ_iž一世ZiZ_iÿYY 看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?


2
结合PCA和LDA是否有意义?
假设我有一个监督统计分类任务的数据集,例如通过贝叶斯分类器。该数据集包含20个特征,我想通过降维技术将其简化为2个特征,例如主成分分析(PCA)和/或线性判别分析(LDA)。 两种技术都将数据投影到较小的特征子空间上:使用PCA,我将找到使数据集中方差最大化的方向(分量)(不考虑类标签),而使用LDA,我将具有使两者之间的最大化的分量。级分离。 现在,我想知道是否可以,如何以及为什么可以结合使用这些技术,以及是否有意义。 例如: 通过PCA转换数据集并将其投影到新的2D子空间中 通过LDA转换(已经PCA转换的)数据集,最大 班级分离 要么 跳过PCA步骤并使用LDA的前2个组件。 或任何其他有意义的组合。

3
首先尝试的五个分类器
除了明显的分类器特征,例如 计算成本, 功能/标签的预期数据类型和 适用于某些大小和尺寸的数据集, 首先对一个尚不十分了解的新数据集(例如语义和各个特征的相关性)首先尝试的前五个(或10、20?)分类器是什么?通常,我尝试使用朴素贝叶斯,最近邻居,决策树和SVM-尽管我没有充分的理由选择此选项,但我了解它们并主要了解它们的工作原理。 我猜应该选择涵盖最重要的通用分类方法的分类器。根据该标准或其他任何原因,您会推荐哪种选择? 更新:针对该问题的另一种表述可能是:“存在哪些通用的分类方法,哪些特定方法涵盖了最重要/最受欢迎/有希望的方法?”

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.