如何进行“啤酒和尿布”的相关分析

我的数据等于：

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

我想对此数据集进行一些分析，以获得一个具有相似含义的相关矩阵：如果您购买了x，则很可能会购买y。

使用python（或者除MATLAB以外的其他任何东西），我该如何处理？一些基本准则或指向我应该去哪里的指针将有所帮助。

谢谢，

编辑-我学到的东西：

correlation econometrics python cross-correlation

— Azarias R
source

如果您正在寻找R包，arules那么值得一看。也许“关联规则”是一个很好的搜索词

— Karsten W.

另请参阅Apriori算法以解决此问题的“标准”方法。

— 主教

除了注释中给出的链接之外，还有其他一些指针：

关于Python，我想现在您已经知道了要寻找的内容，但是Orange数据挖掘软件包提供了一个有关关联规则和项目集的软件包（尽管对于后者，我在网站上找不到任何参考）。

编辑：

我最近遇到了pysuggest，

实现各种推荐算法的Top-N推荐引擎。Top-N推荐系统是一种个性化的信息过滤技术，用于标识特定用户感兴趣的一组N个项目。近年来，top-N推荐器系统已用于许多不同的应用程序中，例如来推荐客户最有可能购买的产品。推荐用户会喜欢的电影，电视节目或音乐；确定感兴趣的网页；甚至建议其他搜索信息的方式。

— hl
source

我想知道，在简单的相关矩阵不足之前需要涉及多少个产品？

— rolando2