日期:2014-05-16  浏览次数:20339 次

算法类简单总结 待续

Mine算法?

方法摘要:用网格判断数据的集中程度,集中程度意味着是否有关联关系

方法具有一般性,即无论数据是怎样分布的,不限于特定的关联函数类型,此判断方法都是有效

MIC

如果变量对x,y存在函数关系,则当样本数增加时,MIC必然趋向于1

?如果变量对x,y可以由参数方程c(t)=[x(t),y(t)]所表达的曲线描画,则当样本数增加时,MIC必然趋于1

?如果变量对x,y在统计意义下互相独立,则当样本数增加时,MIC趋于0

?

Apriori算法

挖掘数据集:购物篮数据

.挖掘目标:关联规则

.关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】

.支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋

.置信度:购买了牛奶的筒子有60%也购买了鸡蛋

.最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定

?

?

lift=P(L,R)/(P(L)P(R)) 是一个类似相关系数的指标。

lift=1时表示L和R独立。这个数越大,越表明L和R存在在一个购物篮中不是偶然现象。

23

?

?

?

项集:项(商品)的集合

.k-项集:k个项组成的项集

.频繁项集:满足最小支持度的项集,频繁k-项集一般记为Lk

.强关联规则:满足最小支持度阈值和最小置信度阈值的规则

?

?