建议文本分类器训练数据集


9

我可以使用哪些免费数据集来训练文本分类器?

我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度,因此我们认为,如果我们根据预定义的单词袋对内容进行分类,那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。

我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现,如果使用与内容无关的预定义词袋,则特征向量将充满零,类别也可能与内容不相关。因此出于这些原因,我们尝试了另一种解决方案,该解决方案将内容分类而不是对其进行分类。

谢谢 :)


1
我认为,在您可以推荐数据集之前,有必要提供有关您的问题的更多详细信息。
尼尔·斯莱特2014年

3
出于什么目的?垃圾邮件过滤?情绪分析?没有明确的目标是困难的建议的数据集。
lsdr

@lsdr查看答案,似乎该问题不一定需要更多细节。
阿米尔·阿里·阿克巴里

@AmirAliAkbari我认为它们是在编辑后进行的。无论如何,我撤回了我的近票。
鲁本斯2014年

对于这个问题,一个更合适的地方是opendata.stackexchange.com
sheldonkreger

Answers:


14

一些用于文本分类的标准数据集是20新闻组,路透社(分为8类和52类)和WebKb。您可以在这里找到所有这些。


谢谢:),我之前已经访问过它,但是我发现它的分类很弱,不够抽象,或者可能与我的内容无关
Abdelmawla 2014年


5

UC Irvine免费提供了一堆数据集,可在此处使用。在这些数据集中,有几十个文本数据集可能会帮助您完成任务。

这些是通用的数据集,因此,根据您的目的,不应将它们用作训练模型的唯一数据,否则,尽管模型可能会起作用,但不会产生高质量的结果。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.