基准数据集以进行协作过滤


9

我想测试一种用于协同过滤的新算法。典型的用例是根据类似于特定用户的用户偏好来推荐电影。

研究人员经常使用哪些常见的基准数据集来测试其算法?我知道在计算机视觉中人们经常使用MNIST或CIFAR,但我还没有找到用于协作过滤的类似数据集。


1
您是否看过Netflix奖励数据集?是的,竞赛已经结束,由于某些隐私原因,竞赛已从官方网站中撤出。您仍然可以尝试在其他位置找到它。
弗拉迪斯拉夫(Vladislavs Dovgalecs)'16

Kaggle.com有很多。只需搜索“ recommendation in:dataset”或“ recommendation in:competition”。

Answers:


8

显而易见的答案是Netflix奖品数据集,对此有很多研究,大多数CF算法都知道分数。

还有其他通常用作基准的可用数据集:

  • 电影镜头数据集:用于对CF算法进行基准测试的2000万个收视数据集;

  • 笑话数据:具有600万以上评分的笑话推荐数据集;

  • 您可以在此链接中找到更多数据集


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.