Questions tagged «classification»

统计分类是基于包含已知子种群的观测数据的训练数据集来确定新观测值所属的子种群的问题,其中子种群的身份未知。因此,这些分类将显示可变的行为,可以通过统计研究。

2
在多问题考试中检测作弊方式
题: 我有关于考试题的二进制数据(正确/不正确)。一些人可能事先有问题的一部分和正确答案。我不知道是谁,多少或哪个。如果没有作弊,则假设我将对项目做出正确响应的概率建模为,其中代表问题难度,是个人的潜在能力。这是一个非常简单的项目响应模型,可以使用R中ltm的rasch()之类的函数进行估算。除了潜在变量的(其中索引个体)之外,我还可以访问单独的估算值\ hat {q} _j升ø 克我吨((p 我 = 1 | Ž ))= β 我 + ž β 我 Ž Ž Ĵ Ĵ q Ĵ一世一世i升Ø克我吨((p一世= 1 |ž))= β一世+ z升ØG一世Ť((p一世=1个|ž))=β一世+žlogit((p_i = 1 | z)) = \beta_i + zβ一世β一世\beta_ižžzž^Ĵž^Ĵ\hat{z}_jĴĴjq^Ĵq^Ĵ\hat{q}_j 相同潜变量的变量,这些变量是从另一个不可能作弊的数据集中得出的。 目的是确定可能被欺骗的个人及其被欺骗的物品。您可能会采取哪些方法?除了原始数据之外,β^一世β^一世\hat{\beta}_i,ž^Ĵž^Ĵ\hat{z}_j和q^Ĵq^Ĵ\hat{q}_j都可用,尽管前两个由于作弊会有所偏差。理想情况下,解决方案将采用概率聚类/分类的形式,尽管这不是必需的。实践思想和形式方法都受到高度欢迎。 到目前为止,我已经比较了q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j -\hat{z}_j 分数较高或较低的成对个体的问题分数的相关性(其中q^Ĵ- ž^Ĵq^Ĵ-ž^Ĵ\hat{q}_j - \hat{z}_j 为他们被骗的可能性的粗略指标)。例如,我用\ hat {q} _j-\ hat …

3
堆叠多个LSTM有什么优势?
有什么优势,为什么一个人在深度网络中使用多个并排堆叠的LSTM?我正在使用LSTM将一系列输入表示为单个输入。因此,一旦有了这种单一表示形式,为什么还要再次通过呢? 我之所以这样问是因为我在自然语言生成程序中看到了这一点。

4
过采样,欠采样和SMOTE可以解决什么问题?
在最近一个广为接受的问题中,Tim问不平衡的数据何时真正成为机器学习中的问题?问题的前提是,有很多机器学习文献讨论班级平衡和班级不平衡的问题。这个想法是,正负类之间不平衡的数据集会导致某些机器学习分类(这里包括概率模型)算法出现问题,应该寻求方法来“平衡”数据集,以恢复完美的50/50在正面和负面类别之间进行划分。 赞成的答案的一般含义是“不是,至少如果您在建模时考虑周全”。M. Henry L.在对已接受答案的投票中说: [...]使用不平衡数据没有低级问题。以我的经验,“避免不平衡数据”的建议要么是特定于算法的,要么是继承的智慧。我同意AdamO的观点,即通常来说,不平衡的数据不会对特定模型造成任何概念上的问题。 AdamO认为阶级平衡的“问题”确实是阶级稀有性之一 因此,至少在回归分析中(但我怀疑在所有情况下),数据不平衡的唯一问题是有效地减少了样本量。如果有任何一种方法适合于稀有阶层的人数,那么他们的比例成员不平衡就不会有问题。 如果这确实是一个真正的问题,那么将有一个悬而未决的问题:所有旨在平衡数据集的重采样方法的目的是什么:过采样,欠采样,SMOTE等? 显然,它们不能解决隐含样本量较小的问题,您不能一无所有地创建信息!

2
用于文本分类的词袋:为什么不只使用词频代替TFIDF?
文本分类的常用方法是从“词袋”中训练分类器。用户采用要分类的文本并计算每个对象中单词的出现频率,然后进行某种修整以使结果矩阵保持可管理的大小。 我经常看到用户使用TFIDF构建其特征向量。换句话说,上面提到的文本频率被语料库中单词的频率降低权重。我明白了为什么TFIDF对于选择给定文档的“最有区别”的单词以供显示给人类分析人员有用。但是,如果使用标准的监督ML技术对文本进行分类,为什么要减少语料库中文档的频率来降低​​权重呢?学习者自己不会决定分配给每个单词/单词组合的重要性吗?非常感谢您对IDF增值(如果有)的想法。

1
维中的
给定数据点,每个数据点具有特征,标记为,其他标记为。每个特征随机取的值(均匀分布)。存在可以分裂两个类别的超平面的概率是多少?d Ñ / 2 0 Ñ / 2 1 [ 0 ,1 ]nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] 让我们首先考虑最简单的情况,即。d=1d=1d = 1

3
交叉验证或自举以评估分类性能?
在特定数据集上评估分类器的性能并将其与其他分类器进行比较的最合适的抽样方法是什么?交叉验证似乎是标准做法,但是我已经读过诸如.632 bootstrap之类的方法是更好的选择。 作为后续措施:性能指标的选择是否会影响答案(如果我使用AUC而不是准确性)? 我的最终目标是能够自信地说一种机器学习方法优于特定的数据集。

2
需要多大的训练集?
是否有一种通用的方法来确定训练一个分类器(在这种情况下为LDA)以获得最小阈值泛化精度所需的训练样本数量? 我之所以问是因为我想尽量减少在脑机接口中通常需要的校准时间。


2
如何处理测试集和训练集的分布之间的差异?
我认为机器学习或参数估计的一个基本假设是,看不见的数据来自与训练集相同的分布。但是,在某些实际情况下,测试集的分布几乎与训练集不同。 说一个大规模的多分类问题,试图将产品描述分类为大约17,000个类别。训练集将具有高度偏斜的上课先验,因此某些班级可能有很多训练示例,但有些班级可能只有几个。假设我们从客户端获得了带有未知类标签的测试集。我们尝试使用在训练集上训练的分类器,将测试集中的每个产品分类为17,000个类别之一。测试集可能具有偏斜的班级分布,但可能与培训集的分布有很大差异,因为它们可能与不同的业务领域相关。如果两个类别的分布非常不同,则训练有素的分类器可能无法在测试集中很好地工作。对于朴素贝叶斯分类器,这似乎尤其明显。 是否有任何原则上的方法来处理概率分类器的训练集和特定给定测试集之间的差异?我听说“转换式SVM”在SVM中做类似的事情。是否有类似的技术来学习在特定给定测试集上表现最佳的分类器?然后,我们可以针对此给定的测试集重新训练分类器,如本实际方案中所允许的那样。

3
可视化模型预测概率的校准
假设我有一个预测模型,该模型为每种情况下产生每个类别的概率。现在,我认识到,如果我想使用这些概率进行分类(精确度,召回率等),则有很多方法可以评估这种模型。我也认识到,ROC曲线及其下的区域可用于确定模型在各类之间的区分程度。这些不是我要问的。 我有兴趣评估模型的校准。 我知道,一个评分规则,如布来得分可以完成这个任务非常有用。没关系,我可能会沿这条线合并一些内容,但是我不确定这样的指标对外行人有多直观。我正在寻找更直观的东西。我希望解释结果的人能够看到模型预测某事发生的概率是70%的可能性是它会在约70%的时间实际发生,等等。 我听说过(但从未使用过)QQ图,起初我以为这是我想要的。但是,看来这确实是为了比较两个概率分布。那不是我直接拥有的。对于一堆实例,我有我的预测概率,然后是事件是否实际发生: Index P(Heads) Actual Result 1 .4 Heads 2 .3 Tails 3 .7 Heads 4 .65 Tails ... ... ... 那么QQ情节真的是我想要的,还是我在寻找其他东西?如果我应该使用QQ图,将数据转换为概率分布的正确方法是什么? 我想我可以按预测的概率对两列进行排序,然后创建一些垃圾箱。这是我应该做的事情,还是我想念某个地方?我熟悉各种离散化技术,但是有没有一种具体的方法可以将离散化到这种情况下的垃圾箱中?



6
测试精度高于训练水平。怎么解释?
我的数据集最多包含150个示例(分为训练和测试),并且具有许多功能(高于1000个)。我需要比较在数据上表现良好的分类器和特征选择方法。因此,我使用三种分类方法(J48,NB,SVM)和2种特征选择方法(CFS,WrapperSubset)以及不同的搜索方法(Greedy,BestFirst)。 比较时,我正在研究训练准确性(5折交叉折叠)和测试准确性。 这是J48和CFS-BestFirst的结果之一: {“ accuracyTraining”:95.83,“ accuracyTest”:98.21} 许多结果是这样的,并且在SVM上有许多结果表明测试准确性远高于训练(训练:60%,测试:98%) 我如何有意义地解释这些结果?如果更低,我会说这太过合适了。通过查看所有结果,在这种情况下是否有关于偏差和方差的说法?我该怎么做才能使这种分类有意义,例如重新选择训练和测试集,或者仅对所有数据使用交叉验证? 我有73个培训和58个测试实例。一些答案在发布时没有此信息。

1
在适当的评分规则中进行选择
有关正确评分规则的大多数资源都提到了许多不同的评分规则,例如对数损失,Brier评分或球形评分。但是,它们之间通常没有太多指导。(图表A:维基百科。) 选择使对数得分最大的模型对应于选择最大似然模型,这似乎是使用对数评分的一个很好的论据。对于Brier或球形评分或其他评分规则是否有类似的理由?为什么有人使用这些评分之一而不是对数评分?

2
受限玻尔兹曼机器与多层神经网络
我一直想尝试使用神经网络来解决我面临的分类问题。我碰到了有关注重成果的管理的论文。但是据我了解,它们与拥有多层神经网络没有什么不同。这个准确吗? 此外,我与R合作,没有看到RBM的任何罐头包装。我确实碰到过有关深度学习网络的文献,这些深度学习网络基本上是堆叠的RBM,但不确定在R中实现它们是否值得努力。有人会提出任何建议吗?谢谢

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.