一类文字怎么做分类？

14

我必须处理文本分类问题。Web搜寻器搜寻特定域的网页，对于每个网页，我都想找出它是否仅属于一个特定类别。也就是说，如果我将此类称为Positive，则每个已抓取的网页都属于Positive类或Non-Positive类。

我已经有大量关于正面课程的培训网页。但是，如何为非阳性课程创建尽可能具有代表性的训练集呢？我的意思是，我基本上可以在该课程中使用所有内容。我可以收集一些绝对不属于正类的任意页面吗？我确定文本分类算法的性能（我更喜欢使用朴素贝叶斯算法）在很大程度上取决于我为非正类选择的网页。

那我该怎么办？有人可以给我个建议吗？非常感谢你！

— 佩米斯塔尔
source

实际上这是两类集群，因为您有两个类。对于一类，您将只有一类，并且有兴趣评估您的观察结果对数据的拟合程度（即检测异常值）。

— 蒂姆

此学习问题有一个名称-PU学习。如果容易获得或容易获得肯定的例子，而否定的则基本上就是一切（难以获得），则自然会使用此方法。原则上，您想学习标准的两类分类器，但要使用不同的标准-优化PR曲线下的面积。此软件包可让您训练这样的分类器code.google.com/p/sofia-ml

— Vladislavs Dovgalecs 2015年

5

该间谍EM算法来解决正是这个问题。

S-EM是一种文本学习或分类系统，可从一组肯定的和未标记的示例（没有否定示例）中学习。它基于“间谍”技术，朴素贝叶斯和EM算法。

基本思路是将肯定集与一堆随机抓取的文档结合在一起。您最初将所有已爬网文档视为否定类，然后在该集合上学习朴素贝叶斯分类器。现在，其中一些已爬网文档实际上将是肯定文档，您可以保守地重新标记得分高于最低得分的真实文档的任何文档。然后，您迭代此过程，直到稳定为止。

— 雷诺
source

非常感谢，这听起来很有希望。我来看看。

— pemistahl 2012年

6

这是关于一类分类的一个很好的论文：

税收，决策层：一类分类-在没有反例的情况下进行概念学习，博士学位论文，荷兰代尔夫特理工大学，2001年。（pdf）

本文介绍了支持向量数据描述（SVDD）方法，它是一类支持向量机，可在数据周围找到最小的超球面，而不是将数据分开的超平面。

本文还回顾了其他一类分类器。

— 小块
source

欢迎来到该站点，@ nub。我们希望建立一个永久的统计信息存储库，因此，我们担心linkrot的可能性。如果链接断开，您介意对该论文中的信息进行摘要吗？

— gung-恢复莫妮卡

感谢您的总结。请注册并合并您的帐户（您可以在我们的帮助中心的“ 我的帐户”部分中找到方法），然后就可以对自己的帖子进行编辑和评论。

— gung-恢复莫妮卡

@gung感谢您的欢迎。我很高兴收到StackOverflow本身的“ Yearling”徽章，所以现在我可以在任何地方发表评论。

— 除JosiahYoder处于活动状态之外。.

@JosiahYoder，如果您是此处的OP，请合并您的帐户。您可以在我们的帮助中心的“ 我的帐户”部分中找到操作方法。

— gung-恢复莫妮卡

我不是OP。只是偶然出现此问题的SO用户。

— 除JosiahYoder处于活动状态之外。.

1

良好的培训需要提供对各个班级概率的良好估计的数据。每个分类问题至少涉及两个类别。在您的情况下，第二类是不在肯定类中的任何人。要使用贝叶斯（Bayes）或其他任何好的方法来形成良好的决策边界，最好从班级中随机选择尽可能多的训练数据。如果您进行非随机选择，则可能会得到一个样本，该样本不能真正代表类条件密度/分布的形状，并可能导致决策边界选择不佳。

— 迈克尔·R·切尼克
source

1

没错，这正是困扰我的地方。如何选择导致良好决策边界的非阳性样本？我能做的最好的是随机选择吗？

— pemistahl 2012年

0

我同意迈克尔。

关于您关于随机选择的问题；是的：您必须从“阳性”的互补组中随机选择。如果有任何混淆，可能您的“阳性”没有完全定义为“纯正”，如果我可以使用该短语，那么您也可以尝试至少某种匹配的阳性定义，以便控制那些可能对“正”定义产生潜在污染的变量。在这种情况下，您还必须在“非正”端对相同的变量进行匹配。

— 关键
source

0

可能感兴趣的文章是：

“扩展的最近的收缩质心分类：一种用于对大小不同的文本进行开放集作者身份归属的新方法”，Schaalje，Fields，Roper和Snow。文学和语言计算，第一卷。26，第1号，2011年。

它采用了一种将文本归因于一组作者的方法，并将其扩展为使用真正作者不在候选集中的可能性。即使您不使用NSC方法，本文中的想法对于思考如何进行也是有用的。

— 格雷格·斯诺（Greg Snow）
source