如何模拟用户在亚马逊上的购买行为?


9

在我们的数据科学最后课程项目中,我们提出了以下建议:

Amazon Reviews数据集,我们计划提出一种算法(该算法大致基于Personalized PageRank),该算法确定将广告投放到Amazon的战略位置。例如,亚马逊上有数百万种产品。数据集使您了解哪些产品相关,哪些产品组合在一起,一起查看等。(我们可以使用还查看和购买的信息构建图表),还为您提供与每种产品相关的评论14年。使用所有这些信息,我们将在亚马逊上对产品进行评分/排名。现在,您是Amazon上的供应商,希望提高其产品页面的访问量。我们的算法可帮助您确定图表中的战略位置,您可以在其中放置广告,从而获得最大流量。

现在,我们教授的问题是,在没有实际用户的情况下,您将如何验证算法?我们说-

我们可以为一组固定的用户建模。与第一跳或第五跳相比,某些用户更频繁地跟踪also_boughtalso_viewed链接到第三跳。那里的用户行为是正态分布的。其他一些用户几乎无法超越第一跳。这组用户的行为呈指数分布。

我们的教授说-无论用户遵循什么发行方式,用户都在使用相似产品的链接进行导航。您的排名算法还考虑了b / w 2个相似度产品对产品进行排名。因此,使用此验证算法有点cheating。带有其他一些用户行为,这些行为更逼真且与算法正交。

关于如何模拟用户行为的任何想法?我很乐意提供有关该算法的更多详细信息。

Answers:


1

您将如何验证算法?

与其尝试回答第二个问题,不如考虑对第一个问题的答案可能需要修改...

您在整个数据科学课程中使用了哪些方法来验证学习方法?首先,您要定义一组特定的数字量度,以评估模型的成功或失败。其次,您可以使用哪些方法来创建非常真实的测试总体(比对总体建模更现实)?我要给出的第一个提示是Amazon Reviews数据集非常大,因此您的数据非常适合此方法。我要给出的第二个提示是,这种方法可能是您在课堂上解决的95%的有监督学习问题中使用的一种方法。

希望这会有所帮助...如果需要,可以根据OP添加的注释进行编辑,但不想立即提供解决方案以引起一些自然的思考,例如,因为这是一个班级问题,而Prof是还尝试帮助您自己提出正确的解决方案。


0

您应该对行为模型有两个要求:(1)“更现实”和(2)与算法正交。

(1)实际上,让我们假设这意味着该行为应反映在不同于亚马逊购买的特定上下文的其他更广泛上下文中观察到的行为。

(2)正交更容易理解。建模行为不应由产品之间的相似性驱动。

满足这两个要求的一种简单方法将来自以下事实:购买行为受社会人口特征的驱动,例如性别,年龄,位置(例如市区/农村)和经济限制条件(收入和价格)。

您有一组用户和一组产品。您可以使用简单但谨慎的回归技术来估算社会人口统计学变量与产品需求之间的关系。如果需要,您可以使用外部数据源进行有关重要缺失变量(例如收入)的假设。

然后,如果您是供应商,则社会人口统计学模型将预测哪些群体最有可能购买您的产品。

希望对您有所帮助:)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.