建议文本分类器训练数据集

9

我可以使用哪些免费数据集来训练文本分类器？

我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度，因此我们认为，如果我们根据预定义的单词袋对内容进行分类，那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。

我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现，如果使用与内容无关的预定义词袋，则特征向量将充满零，类别也可能与内容不相关。因此出于这些原因，我们尝试了另一种解决方案，该解决方案将内容分类而不是对其进行分类。

谢谢：）

machine-learning classification dataset clustering text-mining

— 阿卜杜勒莫拉
source

1

我认为，在您可以推荐数据集之前，有必要提供有关您的问题的更多详细信息。

— 尼尔·斯莱特2014年

3

出于什么目的？垃圾邮件过滤？情绪分析？没有明确的目标是很困难的建议的数据集。

— lsdr

@lsdr查看答案，似乎该问题不一定需要更多细节。

— 阿米尔·阿里·阿克巴里

@AmirAliAkbari我认为它们是在编辑后进行的。无论如何，我撤回了我的近票。

— 鲁本斯2014年

对于这个问题，一个更合适的地方是opendata.stackexchange.com

— sheldonkreger

14

一些用于文本分类的标准数据集是20新闻组，路透社（分为8类和52类）和WebKb。您可以在这里找到所有这些。

— 德巴斯
source

谢谢:)，我之前已经访问过它，但是我发现它的分类很弱，不够抽象，或者可能与我的内容无关

— Abdelmawla 2014年

7

用于文本分类研究的最广泛使用的测试集之一（下面的链接）。我已经使用了很多次。享受您的探索:)

— 哈曼
source

5

UC Irvine免费提供了一堆数据集，可在此处使用。在这些数据集中，有几十个文本数据集可能会帮助您完成任务。

这些是通用的数据集，因此，根据您的目的，不应将它们用作训练模型的唯一数据，否则，尽管模型可能会起作用，但不会产生高质量的结果。

— 博士
source

1

除了上述建议外，还有一个非常有用的pdf- 分类和聚类任务的基准文本集合，其中包含各种数据集以及基准，以测试我们的模型。这包括20ng Collection，Reuters和上面建议的许多数据集。希望对您有所帮助！

— 希玛·瓦尔莎（Hima Varsha）
source