我国的银行、证券、电信、保险行业都在大谈“数据集中”,希望在此基础上实现客户关系管理和商业智能。“数据挖掘工程师”这个新颖的职位名称,也隐约出如今企业的招聘职位栏里。
数据挖掘到底有没有 用?一些企业的领导人对此怀有疑虑。数据挖掘人员口里念叨的是一些稀奇乖僻的技术名词,他们的出身复杂,即不完全是学计算机的,也不像统计学家,更不是营销策划人员,他们得到的结果不容易理解,他们的任务对我的企业发展到底意味着什么?一些技术出身的管理者可能会热捧数据挖掘,希望从中尽快找出新的商业模式,找到新的赚钱机会;而商业直觉强烈的管理者则容易抵触这种精确的定量分析方法,数据挖掘本身的缺陷也导致它容易蒙受攻击。
为了更好地发挥数据挖掘的效能,需求的是企业管理者的理解、数据挖掘人员的更多努力。本文作者依据过去数据挖掘项目的经验,试图对一些混淆不清的问题做出解释。
1.结果的使用
问题:数据挖掘的结果有一部分是以概率数据的方式提交的,这是最容易招致非议的地方。企业管理者可能会问,我要你对我的客户流失做出预测,为什么你不能精确地通知我究竟是哪些客户下个月会流失?而只能通知我每个客户流失的概率。我要你预测哪些客户会发生保险欺诈,你提交的仍然是客户骗保的概率。这样的概率值我如何使用,我敢用吗?
解释:数据挖掘建立的预测模型,是对真实世界的近似,缘由是企业客户数据库中储存的客户的行为信息是不可能面面俱到的,可能没有搜集储存到的那些客户信息恰恰是与客户能否流失或骗保最相关的信息,因此依据已有的信息建立的预测模型是不精确的,得不出确定性结果,而只能是概率值。这样的结果仍然是有用的,由于预测出来的那些流失概率高的客户中,实际流失的往往特别多,企业重点对这部分客户实施挽留维系,针对性就特别强,能节省企业的资源开销。同样,欺诈概率较高的客户中,实际发生欺诈行为的比率也比别的客户群体中高出很多,因此专门的调查人员可以重点对这些客户进行调查,往往事半功倍。资源的节省,即意味着效益的增长。
2. 变量的选择
问题:建立预测模型是一个很吸引人的想法。预测的目标比较好确定,你要预测客户流失,那么“客户能否流失”(二值变量)就是目标变量;你要预测股票的涨跌,那么“收市价能否上升”就是目标变量。但是如何确定哪些变量作为自变量(回想一下高中代数中关于函数的定义),则颇费周折。换句话说,要确定哪些要素与目标变量有关系,往往是见仁见智。这个问题处理不好,则会直接影响预测模型的功用。那么,究竟应该是企业业务人员来决定,还是数据挖掘人员决定呢?
解释:最佳的方式是双方的结合。企业业务人员长期的业务经验,使他们能够敏锐地感觉到哪些要素与目标变量密切相关。但是经验是有局限的,甚至束缚人的思维,企业业务人员会脱漏很多表面无关但实际上很重要的要素,而且由于人脑的处理能力无限,有时不得不忽略一些要素及一些要素之间的复杂微妙的互相影响,而这正是数据挖掘人员可以发挥作用的地方。统计学中有大量的成熟的方法,可以协助我们挑选合适的变量来结构我们的预测模型。
还有一种常见的景象:数据挖掘人员挑选的某个变量,事后发现对模型精度的提高很有好处,但是可能得不到合理的业务解释,这时候,企业业务人员会要求删除这个变量。实际上,数据挖掘的结果常常超出我们的想象,我们的天性就是趋向于拒绝无法理解的东西,甚至冒着损害模型预测功用的风险--这种做法是无害的,由于当前无法解释并不意味着当前也无法解释(听说沃尔玛的“啤酒与尿布”的规则发现也是事后辅之以市场调研才得到解释的);数据挖掘结果并不是凭空得来,而是借助于上千年来人类发展的数学理论在无数次证明无效的复杂算法基础上得到的,不能简单地予以否定;更何况,如果这个变量进入预测模型,被证明是有利于模型精度的,则去掉是很可惜的。不要忘记“实践是检验真
理的独一标准”这一基本法则。
3.对“提升度(lift)”的迷信
问题:在对预测模型的功用评估有所了解后,企业业务人员可能经常会问数据挖掘工程师:“你的模型的提升度是多少?”似乎低于3.0就是一个坏模型。那么究竟要达到多少才能够接受呢?
解释:提升度是衡量预测模型的一个重要目标,但不是独一的。我们还有混合矩阵、呼应捕获率、ROC曲线、基于门限的诊断图等等。不同行业的模型提升度是不同的,同一行业的不同地区也可能不同。我们曾经试验过,用大致相反的自变量要素预测手机用户流失,在广东某地的模型的提升度只要2.2,而该模型在另一个时段使用时的提升度高达5.2,而在湖北某地能达到7.0。因此,模型的接受程度不能仅以提升度为标准,而应该以其预测结果能创造的效益来衡量,计算其投资报答率。但是,数据挖掘人员应该自动想办法,尝试不同的加强办法,在不导致模型发生“过拟合”(Overfitting)的前提下,尽量提高模型的预测精度,由于模型精度的一个百分点上升,就可能意味着商家的上百万元的增收节支。
4.细分的目的性
问题:数据挖掘产生的客户细分,与传统的经验细分相比,能够考虑客户更多的行为属性,得到更丰富的细分可能性,每个客户群体具有更鲜明的行为特征。但是,什么样的客户细分结果才是好的?将客户分成多少个群体是最合适的?群体之间的人数相差悬殊能否就是一个很差的细分结果?
解释:预测性模型的好坏有很多衡量目标,但客户细分的模型功用则没有一定的衡量标准。事先我们并不知道一个客户应该属于哪个群体。客户的细分模型的好坏,更多地要从业务角度来评判。将客户分成上百个群体,确实能够达到更细致地了解各群体客户的目的,但是我们的客户经理顾得过来吗?现有的客户管理系统能够支持这么多客户群体的处理吗?如果不能,则要量入为出少分几个群体。群体之间的人数有时相差很大,可能是客户总体中确实是有某些大群大群的客户的行为很接近,同时也有一些小群小群的客户展现出相反的行为特征,这些人少的客户群体可能是具有异常行为的一组人,例如,具有欺诈行为特征的群体。如果业务处理上关系(例如,规定每个客户经理担任大致相等数量的客户),企业常常会要求将各个群体的人数细分得比较均匀一点,这时同一群体中客户特征的类似性会遭到一点损害。
另外,由于数据挖掘工具的强大,数据挖掘人员可能会着迷于提出一大堆的细分结果,而忽视细分的目的,而企业业务人员则可能以为这些细分就是定论,不能再做调整。最佳的做法,应该是企业业务人员和数据挖掘人员的紧密交互,依据业务需求确定细分方案,并尝试多种调整,从中选择一种合理合适的方案和结果。例如,如果想重点对客户的长途通话行为予以细分,则可以多选取与长途有关的要素作为细分变量,甚至将这些变量乘以某个权重因子,愈加强调它们的作用。
5.工具的选择
问题:数据挖掘工具的昂贵性是众所周知的。贵的无数百万元一套供租用两年的,便宜的无数十万元购置的。如何选择?
解释:应该依据企业的需求、预算、使用人员素质等方面来确定。如果每年需求建立数百个模型、数据和模型的管理非常复杂,数据挖掘的预期效益非常大,使用人员具有很好的理论基础和使用水平,则应该选择功用强大、灵活快捷的挖掘工具;否则应该考虑那些功用绝对单一、套件式的工具产品。企业可以留意一些咨询机构推出的挖掘软件评测报告。值得一提的是,国外流行的一些免费软件,如ADE-4、Lisp-Stat、R等,也逐渐被国内人士认识并使用。其中的R是一种独立的编程软件,具有众多的程序包(Packages)可供调用,其开发灵活性几乎不亚于好像SAS这样的巨型商业软件,但是对使用人员具有较高的要求。
6.不是“挖掘”能处理的问题
问题:企业界由于长期缺乏定量分析的传统,在向分析人员提出业务需求时,并不是按照能否属于数据挖掘范畴来划分的。例如,企业可能会提出如何优化本人的网络资源,如何对有众多随机要素的不确定系统(物流、工厂供应链、排队系统等)提出最优的操作方案,如何依据现状推演未来的市场份额变化和竞争优势。数据挖掘能够胜任这些任务吗?
解释:学术意义上,这些都不属于数据挖掘的领域,而分别属于运筹学、离散事件仿真、系统动力学仿真的领域。这些技术在目前我国企业的使用很少,数据挖掘人员应该扩展本人的阵地,将本人的统计分析能力和数据建模能力往前推进一步,满足企业的新的需求。例如,电信行业时常谈论的“营销预演”,即在营销方案实施之前就能预知结果,从而事先调整好方案,以追求最佳的效果,实际上是一个典型的竞争动力学仿真问题,。这样的问题,需求考虑时间要素,考虑要素之间的正、负反馈,对各种要素的互相作用建立起结构化模型,经过校验后,用于实际场景的预测。由于是在计算机上运转的模型,企业管理者可以无风险地在模型上试验本人的任何想法,检验各种要素调整对效益的影响,检验对竞争对手的反应能否恰当,及本人的行为对市场环境会形成什么影响。
总之,数据挖掘连同其它的数学建模方法,对我国企业界挖潜改造、多创效益