1
如何进行“啤酒和尿布”的相关分析
我的数据等于: shopper_1 = ['beer', 'eggs', 'water',...] shopper_2 = ['diapers', 'beer',...] ... 我想对此数据集进行一些分析,以获得一个具有相似含义的相关矩阵:如果您购买了x,则很可能会购买y。 使用python(或者除MATLAB以外的其他任何东西),我该如何处理?一些基本准则或指向我应该去哪里的指针将有所帮助。 谢谢, 编辑-我学到的东西: 这些类型的问题称为关联规则发现。维基百科上有一篇很好的文章,介绍了一些常用的算法。这样做的经典算法似乎是Apriori,原因是Agrawal等。等 这使我想到了Orange,这是一个python接口的数据挖掘程序包。对于Linux,最好的安装方式似乎是使用提供的setup.py从源代码安装 默认情况下,橙色读取来自文件的输入,格式为几种受支持的方式之一。 最后,一个简单的先验关联规则的学习是简单的橙色。