统计和大数据 association-rules

3

对这两种技术之间的实际区别是否有一个非常简单的描述？两者似乎都用于有监督的学习（尽管关联规则也可以处理无监督的学习）。两者都可以用于预测我发现最接近“良好”描述的是Statsoft教科书。他们说关联规则用于： ...检测大型数据集中分类变量的特定值之间的关系或关联。虽然决策树分类器被描述为用于： ...根据案例或对象在一个或多个预测变量上的度量来预测类别因变量类别中的成员资格。但是，在R Data Mining上，他们给出了与目标字段一起使用的关联规则的示例。因此，两者都可以用来预测组成员身份，这是决策树可以处理非分类输入数据而关联规则不能处理的关键区别吗？还是有更根本的东西？一个站点（sqlserverdatamining.com）说，主要区别在于：决策树规则基于信息获取，而关联规则基于流行度和/或置信度。因此（可能回答了我自己的问题）是否意味着纯粹根据关联规则在数据集中出现的频率（以及它们为“真”的频率）进行评估，而决策树实际上正在尝试最小化方差？如果有人知道一个好的描述，他们愿意指出我的观点，那就太好了。

19 data-mining association-rules

1

使用规则为新数据找到合适的规则

我正在使用R（和arules软件包）来挖掘交易的关联规则。我要做的是构造规则，然后将其应用于新数据。例如，假设我有很多规则，其中之一就是规范{Beer=YES} -> {Diapers=YES}。然后，我有了新的交易数据，其中一条记录购买了啤酒，但没有购买尿布。如何确定符合LHS但尚未符合RHS的规则？ R示例： install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成的规则是： > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

11 r data-mining association-rules

3

我可以使用哪些统计方法来找到分类变量的流行或常见组合？

我正在研究多种药物的使用。我有一个包含400名吸毒者的数据集，每个人都陈述了他们滥用的药物。有10种以上的药物，因此可能有很大的组合。我将它们消耗的大多数药物重新编码为二进制变量（即，如果吸毒者滥用了海洛因，则海洛因为1，否则为0）。我想找到2或3种药物的流行或常见组合。我可以使用统计方法吗？

10 hypothesis-testing clustering combinatorics association-measure association-rules

2

最高和经常关闭-包括答案

中号ÿ d一个吨一个小号ë 吨：中号ÿ d一个Ť一个sËŤ：My \ \ dataset: 1 ：A ，B ，C，E1个：一个，乙，C，Ë1: A,B,C,E 2 ：A ，C，D ，E2：一个，C，d，Ë2:A,C,D,E 3 ：B ，C ，E3：乙，C，Ë3:\ \ \ \ \ B,C,E 4 ：A ，C，D ，E4：一个，C，d，Ë4:A,C,D,E 5 ：C ，D ，E5： C，d，Ë5:\ \ \ \ C, D, E 6 ：A ，D ，E 6：一个，d，Ë6: \ \ \ …

10 data-mining dataset association-rules

Questions tagged «association-rules»