一类文字怎么做分类?


14

我必须处理文本分类问题。Web搜寻器搜寻特定域的网页,对于每个网页,我都想找出它是否仅属于一个特定类别。也就是说,如果我将此类称为Positive,则每个已抓取的网页都属于Positive类或Non-Positive

我已经有大量关于正面课程的培训网页。但是,如何为非阳性课程创建尽可能具有代表性的训练集呢?我的意思是,我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于类的任意页面吗?我确定文本分类算法的性能(我更喜欢使用朴素贝叶斯算法)在很大程度上取决于我为非正类选择的网页

那我该怎么办?有人可以给我个建议吗?非常感谢你!


实际上这是两类集群,因为您有两个类。对于一类,您将只有一类,并且有兴趣评估您的观察结果对数据的拟合程度(即检测异常值)。
蒂姆

此学习问题有一个名称-PU学习。如果容易获得或容易获得肯定的例子,而否定的则基本上就是一切(难以获得),则自然会使用此方法。原则上,您想学习标准的两类分类器,但要使用不同的标准-优化PR曲线下的面积。此软件包可让您训练这样的分类器code.google.com/p/sofia-ml
Vladislavs Dovgalecs 2015年

Answers:


5

间谍EM算法来解决正是这个问题。

S-EM是一种文本学习或分类系统,可从一组肯定的和未标记的示例(没有否定示例)中学习。它基于“间谍”技术,朴素贝叶斯和EM算法。

基本思路是将肯定集与一堆随机抓取的文档结合在一起。您最初将所有已爬网文档视为否定类,然后在该集合上学习朴素贝叶斯分类器。现在,其中一些已爬网文档实际上将是肯定文档,您可以保守地重新标记得分高于最低得分的真实文档的任何文档。然后,您迭代此过程,直到稳定为止。


非常感谢,这听起来很有希望。我来看看。
pemistahl 2012年

6

这是关于一类分类的一个很好的论文:

  • 税收,决策层:一类分类-在没有反例的情况下进行概念学习,博士学位论文,荷兰代尔夫特理工大学,2001年。(pdf

本文介绍了支持向量数据描述(SVDD)方法,它是一类支持向量机,可在数据周围找到最小的超球面,而不是将数据分开的超平面。

本文还回顾了其他一类分类器。


欢迎来到该站点,@ nub。我们希望建立一个永久的统计信息存储库,因此,我们担心linkrot的可能性。如果链接断开,您介意对该论文中的信息进行摘要吗?
gung-恢复莫妮卡

感谢您的总结。请注册并合并您的帐户(您可以在我们的帮助中心的“ 我的帐户”部分中找到方法),然后就可以对自己的帖子进行编辑和评论。
gung-恢复莫妮卡

@gung感谢您的欢迎。我很高兴收到StackOverflow本身的“ Yearling”徽章,所以现在我可以在任何地方发表评论。
除JosiahYoder处于活动状态之外。.

@JosiahYoder,如果您是此处的OP,请合并您的帐户。您可以在我们的帮助中心的“ 我的帐户”部分中找到操作方法。
gung-恢复莫妮卡

我不是OP。只是偶然出现此问题的SO用户。
除JosiahYoder处于活动状态之外。.

1

良好的培训需要提供对各个班级概率的良好估计的数据。每个分类问题至少涉及两个类别。在您的情况下,第二类是不在肯定类中的任何人。要使用贝叶斯(Bayes)或其他任何好的方法来形成良好的决策边界,最好从班级中随机选择尽可能多的训练数据。如果您进行非随机选择,则可能会得到一个样本,该样本不能真正代表类条件密度/分布的形状,并可能导致决策边界选择不佳。


1
没错,这正是困扰我的地方。如何选择导致良好决策边界的非阳性样本?我能做的最好的是随机选择吗?
pemistahl 2012年

0

我同意迈克尔。

关于您关于随机选择的问题;是的:您必须从“阳性”的互补组中随机选择。如果有任何混淆,可能您的“阳性”没有完全定义为“纯正”,如果我可以使用该短语,那么您也可以尝试至少某种匹配的阳性定义,以便控制那些可能对“正”定义产生潜在污染的变量。在这种情况下,您还必须在“非正”端对相同的变量进行匹配。


0

可能感兴趣的文章是:

“扩展的最近的收缩质心分类:一种用于对大小不同的文本进行开放集作者身份归属的新方法”,Schaalje,Fields,Roper和Snow。文学和语言计算,第一卷。26,第1号,2011年。

它采用了一种将文本归因于一组作者的方法,并将其扩展为使用真正作者不在候选集中的可能性。即使您不使用NSC方法,本文中的想法对于思考如何进行也是有用的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.