日期:2014-05-16 浏览次数:20347 次
Mine算法?
方法摘要:用网格判断数据的集中程度,集中程度意味着是否有关联关系
方法具有一般性,即无论数据是怎样分布的,不限于特定的关联函数类型,此判断方法都是有效
MIC
如果变量对x,y存在函数关系,则当样本数增加时,MIC必然趋向于1
?如果变量对x,y可以由参数方程c(t)=[x(t),y(t)]所表达的曲线描画,则当样本数增加时,MIC必然趋于1
?如果变量对x,y在统计意义下互相独立,则当样本数增加时,MIC趋于0
?
Apriori算法
挖掘数据集:购物篮数据
.挖掘目标:关联规则
.关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】
.支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋
.置信度:购买了牛奶的筒子有60%也购买了鸡蛋
.最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定
?
?
lift=P(L,R)/(P(L)P(R)) 是一个类似相关系数的指标。
lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物篮中不是偶然现象。
23
?
?
?
项集:项(商品)的集合
.k-项集:k个项组成的项集
.频繁项集:满足最小支持度的项集,频繁k-项集一般记为Lk
.强关联规则:满足最小支持度阈值和最小置信度阈值的规则
?
?