Questions tagged «classification»

有监督学习的实例,用于标识新数据集实例所属的一个或多个类别。

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
尽早停止验证损失或准确性?
我目前正在训练神经网络,我无法决定使用哪种方法来实现我的“早期停止”标准:验证损失或在验证集上计算出的诸如准确性/ f1score / auc /之类的指标。 在我的研究中,我发现捍卫这两种观点的文章。Keras似乎默认不接受验证损失,但是对于相反的方法,我也遇到了令人信服的答案(例如here)。 是否有人指示何时最好使用验证损失以及何时使用特定指标?

3
如何使用不固定的分类数据进行分类?
我对分类数据和数值数据都有分类问题。我面临的问题是我的分类数据不固定,这意味着我要预测其标签的新候选者可能具有一个新类别,而该类别之前没有被观察到。 例如,如果我的分类数据为sex,则无论如何female,唯一可能的标签将是male和other。但是,我的分类变量是city这样的,以至于我试图预测的人可能拥有一个我的分类器从未见过的新城市。 我想知道是否有一种方法可以按照这些术语进行分类,或者是否应该考虑这些新的分类数据再次进行培训。

3
我们什么时候应该认为数据集不平衡?
我面临的情况是数据集中正例和负例的数量不平衡。 我的问题是,是否有任何经验法则可以告诉我们何时应对大型类别进行二次抽样,以便在数据集中实施某种平衡。 例子: 如果正面示例的数量是1,000,负面示例的数量是10,000,我应该在整个数据集中训练分类器,还是应该对负面示例进行二次抽样? 1,000个肯定示例和100,000个否定示例的相同问题。 10,000个正数和1,000个负数的相同问题。 等等...

1
R中图的库(标签传播算法/频繁的子图挖掘)
问题的一般描述 我有一个图形,其中某些顶点被标记为具有3或4个可能值的类型。对于其他顶点,类型是未知的。我的目标是使用图形来预测未标记顶点的类型。 可能的框架 根据我对文献的阅读,我怀疑这符合标签传播问题的一般框架(例如,请参见本文和本文) 经常被提到的另一种方法是Frequent Subgraph Mining,它包括算法,如SUBDUE,SLEUTH,和gSpan。 发现于R 我设法找到的唯一标签传播实现R是label.propagation.community()在igraph库中。但是,顾名思义,它主要用于查找社区,而不是用于对未标记的顶点进行分类。 似乎也有几个对subgraphMining库的引用(例如,在这里),但是CRAN似乎缺少它。 题 您是否了解所描述任务的库或框架?

4
为什么几种类型的模型会给出几乎相同的结果?
我一直在分析约40万条记录和9个变量的数据集。因变量是二进制。我已经安装了逻辑回归,回归树,随机森林和梯度增强树。当我在另一个数据集上验证拟合值时,它们全都具有拟合值的虚拟相同优势。 为什么会这样呢?我猜这是因为我对可变比率的观察如此之高。如果这是正确的,那么在不同的观察变量比率下,不同的模型将开始产生不同的结果?

1
如何确定英语句子的复杂性?
我正在开发一个应用程序,以帮助人们学习英语作为第二语言。我已经证实句子可以通过提供额外的上下文来帮助学习语言。我是通过在60名学生的教室中进行小型研究来做到这一点的。 我已经从Wikipedia挖掘了十万多个用于各种英语单词的句子(包括Barrons的800个单词和1000个最常见的英语单词) 整个数据可从https://buildmyvocab.in获得 为了保持内容的质量,我过滤掉了超过160个字符的句子,因为这些句子可能很难理解。 下一步,我希望能够以易于理解的顺序自动化对该内容进行排序的过程。我本人不是英语母语者。我想知道我可以使用哪些功能将简单句子与困难句子分开。 另外,您认为这可能吗?

3
预测最佳通话时间
我有一个数据集,其中包括一组位于加利福尼亚不同城市的客户,呼叫每个客户的时间以及呼叫状态(如果客户接听电话则为True,如果客户未接听则为False)。 我必须找到合适的时间来拜访未来的客户,以便接听电话的可能性很高。那么,解决此问题的最佳策略是什么?我应该将小时数(0,1,2,... 23)归类为分类问题吗?还是应该将其视为时间是连续变量的回归任务?如何确保接听电话的可能性很高? 任何帮助,将不胜感激。如果您让我参考类似的问题,那也很好。 以下是数据的快照。

2
scikit分类器需要多少时间进行分类?
我计划使用scikit线性支持向量机(SVM)分类器对包含100万个带标签文档的语料库进行文本分类。我打算做的是,当用户输入某个关键字时,分类器将首先将其分类为一个类别,然后在该类别目录的文档中进行后续的信息检索查询。我有几个问题: 如何确认分类不会花费太多时间?我希望用户不必花时间等待分类完成才能获得更好的结果。 使用适用于网站/ Web应用程序的Python的scikit库适合吗? 有谁知道亚马逊或翻车如何对用户查询进行分类,或者他们使用完全不同的逻辑?

1
数据不平衡导致多类数据集分类错误
我正在研究文本分类,这里有39个类别/类和850万条记录。(未来的数据和类别将会增加)。 我的数据的结构或格式如下。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

1
如何处理一个分类问题,其中一个类别由“其他类别中的任何一个都不定义”
假设我对三个类,和。但是我的数据集实际上包含了更多的真实类。c 2 c 3(c j )n j = 4C1个C1个c_1C2C2c_2C3C3c_3(cĴ)ñj = 4(CĴ)Ĵ=4ñ(c_j)_{j=4}^n 显而易见的答案是定义一个新类,它引用所有类,但是我怀疑这不是一个好主意,因为的样本将很少并且彼此之间不太相似。çĴĴ>3 Ç 4C^4C^4\hat c_4CĴCĴc_jj > 3Ĵ>3j>3C^4C^4\hat c_4 为了可视化我要说的内容,假设我有以下两个变量空间,并且类,,,分别用红色,直到,绿色和黑色分别。这就是我怀疑我的数据的样子。c ^ 2 ç 3 Ç 4 = ⋃ Ñ Ĵ = 4 Ç ĴC1个C1个c_1C2C2c_2C3C3c_3C^4= ⋃ñj = 4CĴC^4=⋃Ĵ=4ñCĴ\hat c_4= \bigcup_{j=4}^n c_j 有没有解决此问题的标准方法?什么是最有效的分类器,为什么?

4
分类多元时间序列
我有一组由约40个维度的时间序列(8个点)组成的数据(因此每个时间序列为8 x 40)。对应的输出(类别的可能结果)为0或1。 设计具有多个维度的时间序列的分类器的最佳方法是什么? 我最初的策略是从这些时间序列中提取特征:均值,标准差,每个维度的最大变化。我获得了用于训练RandomTreeForest的数据集。意识到这一点的天真之处,并且在获得较差的结果之后,我现在正在寻找一种更好的模型。 我的线索如下:对每个维度进行系列分类(使用KNN算法和DWT),使用PCA降低维度,并沿多维类别使用最终分类器。作为ML的新手,我不知道自己是否完全错了。

2
向量序列的分类
我的数据集由矢量序列组成。每个向量都有50个实值维。序列中载体的数量为3-5至10-15。换句话说,序列的长度不是固定的。 一些相当数量的序列(不是向量!)用类标签注释。我的任务是学习给定向量序列的分类器,计算整个序列的类标签。 我无法说出数据的确切性质,但是序列的性质不是暂时的。但是,如果不更改标签(),则向量不能与向量互换。换句话说,向量的顺序很重要。向量本身是可比较的,例如,计算点​​积并使用此相似度值是有意义的。X一世X一世x_iXĴXĴx_ji ≠ j一世≠Ĵi \neq j 我的问题是:什么可以帮助分类此类数据的工具/算法? 更新:数据具有这样的属性,即一个或很少的向量会强烈影响类标签。 可能的解决方案:经过一些研究,看起来递归神经网络(RNN)非常自然。总体思路是选择一个上下文大小,连接单词向量,进行最大池化并通过经典NN进行馈送。在句子中每个可能的上下文窗口位置处,构建一个特征向量。例如,使用最大池构建最终特征向量。进行反向传播以调整网络参数。我已经取得了一些积极的成果(GPU是必须的)。ķķk

2
在python中实现互补朴素贝叶斯?
问题 我曾尝试在标记的犯罪数据集上使用朴素贝叶斯,但结果却很差(准确性为7%)。朴素贝叶斯的运行速度比我一直在使用的其他算法要快得多,因此我想尝试找出分数为何如此之低的原因。 研究 阅读后,我发现朴素贝叶斯应与平衡数据集一起使用,因为它偏向于频率较高的类。由于我的数据不平衡,因此我想尝试使用互补朴素贝叶斯,因为它专门用于处理数据偏斜。在描述该过程的论文中,该应用程序用于文本分类,但是我不明白为什么该技术在其他情况下不起作用。您可以在这里找到我所指的论文。简而言之,想法是根据类未出现的情况使用权重。 经过一些研究,我能够找到Java的实现,但是不幸的是,我不了解任何Java,只是我对算法的理解不足以实现自己。 题 在哪里可以找到python的实现?如果不存在,我应该如何自己实施呢?

4
建议文本分类器训练数据集
我可以使用哪些免费数据集来训练文本分类器? 我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度,因此我们认为,如果我们根据预定义的单词袋对内容进行分类,那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。 我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现,如果使用与内容无关的预定义词袋,则特征向量将充满零,类别也可能与内容不相关。因此出于这些原因,我们尝试了另一种解决方案,该解决方案将内容分类而不是对其进行分类。 谢谢 :)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.