在我们的数据科学最后课程项目中,我们提出了以下建议:
给 Amazon Reviews数据集,我们计划提出一种算法(该算法大致基于Personalized PageRank),该算法确定将广告投放到Amazon的战略位置。例如,亚马逊上有数百万种产品。数据集使您了解哪些产品相关,哪些产品组合在一起,一起查看等。(我们可以使用还查看和购买的信息构建图表),还为您提供与每种产品相关的评论14年。使用所有这些信息,我们将在亚马逊上对产品进行评分/排名。现在,您是Amazon上的供应商,希望提高其产品页面的访问量。我们的算法可帮助您确定图表中的战略位置,您可以在其中放置广告,从而获得最大流量。
现在,我们教授的问题是,在没有实际用户的情况下,您将如何验证算法?我们说-
我们可以为一组固定的用户建模。与第一跳或第五跳相比,某些用户更频繁地跟踪
also_bought
并also_viewed
链接到第三跳。那里的用户行为是正态分布的。其他一些用户几乎无法超越第一跳。这组用户的行为呈指数分布。
我们的教授说-无论用户遵循什么发行方式,用户都在使用相似产品的链接进行导航。您的排名算法还考虑了b / w 2个相似度产品对产品进行排名。因此,使用此验证算法有点cheating
。带有其他一些用户行为,这些行为更逼真且与算法正交。
关于如何模拟用户行为的任何想法?我很乐意提供有关该算法的更多详细信息。