我可以使用哪些免费数据集来训练文本分类器?
我们正在尝试通过向用户推荐最相关的内容来增强用户的参与度,因此我们认为,如果我们根据预定义的单词袋对内容进行分类,那么我们可以通过获取用户对已经分类的随机帖子数量的反馈来向其推荐内容之前。
我们可以使用此信息为他推荐标有这些类别的豆类。但是我们发现,如果使用与内容无关的预定义词袋,则特征向量将充满零,类别也可能与内容不相关。因此出于这些原因,我们尝试了另一种解决方案,该解决方案将内容分类而不是对其进行分类。
谢谢 :)
1
我认为,在您可以推荐数据集之前,有必要提供有关您的问题的更多详细信息。
—
尼尔·斯莱特2014年
出于什么目的?垃圾邮件过滤?情绪分析?没有明确的目标是很困难的建议的数据集。
—
lsdr
@lsdr查看答案,似乎该问题不一定需要更多细节。
—
阿米尔·阿里·阿克巴里
@AmirAliAkbari我认为它们是在编辑后进行的。无论如何,我撤回了我的近票。
—
鲁本斯2014年
对于这个问题,一个更合适的地方是opendata.stackexchange.com
—
sheldonkreger