我的数据等于:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
我想对此数据集进行一些分析,以获得一个具有相似含义的相关矩阵:如果您购买了x,则很可能会购买y。
使用python(或者除MATLAB以外的其他任何东西),我该如何处理?一些基本准则或指向我应该去哪里的指针将有所帮助。
谢谢,
编辑-我学到的东西:
我的数据等于:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
我想对此数据集进行一些分析,以获得一个具有相似含义的相关矩阵:如果您购买了x,则很可能会购买y。
使用python(或者除MATLAB以外的其他任何东西),我该如何处理?一些基本准则或指向我应该去哪里的指针将有所帮助。
谢谢,
编辑-我学到的东西:
Answers:
除了注释中给出的链接之外,还有其他一些指针:
关于Python,我想现在您已经知道了要寻找的内容,但是Orange数据挖掘软件包提供了一个有关关联规则和项目集的软件包(尽管对于后者,我在网站上找不到任何参考)。
编辑:
我最近遇到了pysuggest,
实现各种推荐算法的Top-N推荐引擎。Top-N推荐系统是一种个性化的信息过滤技术,用于标识特定用户感兴趣的一组N个项目。近年来,top-N推荐器系统已用于许多不同的应用程序中,例如来推荐客户最有可能购买的产品。推荐用户会喜欢的电影,电视节目或音乐;确定感兴趣的网页;甚至建议其他搜索信息的方式。
arules
那么值得一看。也许“关联规则”是一个很好的搜索词