日期:2014-05-16  浏览次数:20439 次

Thinking in BigDate(14)大数据之DM经典模型(5)

     接着上篇文章,接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。

4、朴素贝叶斯模型

       表查询模型简单有效,但是存在一个问题。随着输入数量的额增加,每个单元格中训练样本的数量会迅速减少。如果维度为2,且每一维有10个不同的变量,那么就需要100个单元格,而当有3个维度时,就需要1000个单元格,4个维度就是10000.这样成指数级的增长,哪怕的传统数据挖掘中都会遇到明显瓶颈。

       当试图预测某一个概率值时,朴素贝叶斯模型就提供这一办法。基本思想:每个输入变量本身就包含一些预测需要的信息。比如目标变量是取消业务的概率,解释变量是市场、获取渠道、初始信用评分、利率计划、电话号码类型、手机号以及客户年龄。这些变量都具有预测能力。根据取消率的显著差异性,可将每个变量划分在不同的范围中。

       简单理解:条件概率是指给定B的条件下A的概率以及给定A的条件下B的概率。

       解释:给定B的条件下A发生的概率,等于给定A的条件下B发生的概率乘以AB发生的概率的比例。

       如果A代表停止续签,B代表使用黑莓手机,然后给定使用黑莓手机的条件下停止续签的概率,就是给定停止续签的条件下使用黑莓手机的概率乘以总体停止续签的概率与总体使用黑莓手机的概率之比。

4.1、概率、几率和释然

       ·概率:0到1之间的一个数字,表示一个特定结果发生的可能性。一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。

       ·几率:某一特定结果发生于不发生的概率比。如果一个事件发生的概率是0.2,那么不发生的概率是0.8。那么其发生的几率就是1/4。几率的取值是0到无穷。

       ·似然:两个相关的条件概率比。即给定B发生的情况下,某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。

4.2、朴素贝叶斯计算

       对任意数量属性中的每一个属性,朴素贝叶斯公式都将目标事件的几率与该事件的似然联系起来。回到基于营销市场、渠道获取、最初信用评分、费率计算、电话号码类型、手机型号以及客户年龄来预测客户流失的例子。例如上面谈到的黑莓手机续签的案例,我们关注的是。1、停止续签的总体几率。2、黑莓手机用户停止的似然。3、在整个州市场停止续签的似然。

 &n