Answers:
Apriori算法是用于数据挖掘的关联规则挖掘算法。它用于在给定数量的交易中查找频繁项集。
它基本上包括两个步骤
重复这些步骤k次,其中k是项目数,在上一次迭代中,您将获得包含k个项目的频繁项目集。
请在此处查找非常简单的说明,并提供详细示例http://nikhilvithlani.blogspot.com/2012/03/apriori-algorithm-for-data-mining-made.html。
它的解释简单,没有任何复杂的方程式。
Apriori用简单的英语。
Apriori采用称为“逐级搜索”的迭代方法,其中使用k个项目集探索(k + 1)个项目集。首先,通过扫描数据库以累积每个项目的计数,然后收集满足最小支持的那些项目,来找到一组频繁的1个项目集。结果集表示为L1。接下来,使用L1查找L2,这是一组频繁的2个项目集,该集合用于查找L3,依此类推,直到找不到更多的频繁k个项目集。找到每个Lk要求对数据库进行一次完整扫描。
在最后一次迭代中,您将获得许多k-itemsets,基本上称为关联规则。为了从所有可能的规则集中选择有趣的规则,可以应用各种约束措施,例如支持和置信度。
术语和术语
联接步骤:意味着使1-itemset与自身进行自我联接以生成2-itemset。
修剪步骤:此处以最小支持阈值过滤来自连接的结果集。
基数集:修剪步骤的结果集。
支持 =包含“ a”和“ b”的交易数量/交易总数。
支持=> supp(a,b)=> p(a U b)
置信 =包含“ a”和“ b”的交易数量/包含“ a”的交易数量。
有信心=> con(a,b)==> P(b | a)只不过是条件概率。