如何进行“啤酒和尿布”的相关分析


8

我的数据等于:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

我想对此数据集进行一些分析,以获得一个具有相似含义的相关矩阵:如果您购买了x,则很可能会购买y。

使用python(或者除MATLAB以外的其他任何东西),我该如何处理?一些基本准则或指向我应该去哪里的指针将有所帮助。

谢谢,

编辑-我学到的东西:

  1. 这些类型的问题称为关联规则发现。维基百科上有一篇很好的文章,介绍了一些常用的算法。这样做的经典算法似乎是Apriori,原因是Agrawal等。等

  2. 这使我想到了Orange,这是一个python接口的数据挖掘程序包。对于Linux,最好的安装方式似乎是使用提供的setup.py从源代码安装

  3. 默认情况下,橙色读取来自文件的输入,格式为几种受支持的方式之一。

  4. 最后,一个简单的先验关联规则的学习是简单的橙色。


3
如果您正在寻找R包,arules那么值得一看。也许“关联规则”是一个很好的搜索词
Karsten W.

2
另请参阅Apriori算法以解决此问题的“标准”方法。
主教

Answers:


7

除了注释中给出的链接之外,还有其他一些指针:

关于Python,我想现在您已经知道了要寻找的内容,但是Orange数据挖掘软件包提供了一个有关关联规则和项目集的软件包(尽管对于后者,我在网站上找不到任何参考)。

编辑:

我最近遇到了pysuggest

实现各种推荐算法的Top-N推荐引擎。Top-N推荐系统是一种个性化的信息过滤技术,用于标识特定用户感兴趣的一组N个项目。近年来,top-N推荐器系统已用于许多不同的应用程序中,例如来推荐客户最有可能购买的产品。推荐用户会喜欢的电影,电视节目或音乐;确定感兴趣的网页;甚至建议其他搜索信息的方式。


我想知道,在简单的相关矩阵不足之前需要涉及多少个产品?
rolando2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.