日期:2013-09-28  浏览次数:20426 次

数据仓库——在“啤酒与尿布”中挖掘01-5-21 下午 04:19:25

对话者:掌管人:程鸿——《计算机世界》报记者专家:孟晓峰——中国人民大学信息学院教授祁国辉——“数据仓库之路”网站掌管人IT厂商:杨顺生——NCR大中华区市场及合作伙伴总经理用户:陈道斌——工商银行信息管理部处长(博士)对话主题:数据仓库在中国的使用前景如何?  数据仓库的门槛有多高?掌管人:自从“啤酒和尿布”的故事在中国广泛流传之后,数据仓库在中国也热闹了一阵子,许多企业家曾对它抱以极大的希望,但为什么时隔不久数据仓库使用就进入了“冬眠期”?数据仓库技术在中国的使用遭到了哪些要素的制约?孟晓峰:数据仓库是在数据库基础上发展而来的,它通常有三个部分:数据仓库(Data Warehousing)、联机分析处理(OLAP)及数据挖掘(Datamining),它们之间具有极强的互补关系。数据仓库是为了满足人们在高度数据积累基础上进行数据分析的需求而产生的,但由于目前中国在基础数据的积累方面存在不足,导致数据仓库技术的使用没能推广开来。一个技术的出现普通是由于创新者提出新的概念,研讨者去处理某些问题;虽然数据仓库曾经跨过了这一阶段,但目前在数据仓库的使用推广过程中,又遇到了一个门槛,那就是这种技术如何被多数人所接受。我认为要使数据仓库被多数人接受,首先需求处理的问题就是数据挖掘技术如何与现有商业技术的结合。目前市场上已有多种适用途理所有商业模式的通用数据挖掘系统,但实际上这些系统极其不好用,只要那些非常熟悉数据挖掘技术的人才能够理解和使用它们,而普通用户是很难使用这些技术来处理本人的商业问题。杨顺生:我们是一家真正运营数据仓库产品的企业,从我们与国内企业接触的经验来看,数据仓库技术在中国没能很好发展起来,次要有以下几方面缘由:第一,中国的信息化基础设备绝对不太完善,例如目前电信行业的计费数据非常分散,计费工具就有40~50种,数据采集都是各搞各的,为今后的分析带来许多技术上的困难。第二,企业的竞争认识和服务认识还不够强,对于决策分析的需求还不那么迫切,由于企业没无机会实施数据仓库,因此也相应形成这方面技术人才缺乏的景象。第三,数据仓库是一个数据共享的系统,不同层面的人从中得到的信息会大不一样,它对企业决策是一个很好的工具,但目前中国企业没有建立起一个管理机制来推动数据的共享,不论是对人的能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建立好用的数据分析是非常困难的。祁国辉:实际上,在国外市场竞争非常激烈的环境下,每个商场为了本身的生存,曾经想尽了办法,很多能够被人工发现的规律早就发现了,在这种情况下,使用数据挖掘技术来处理问题是一个很正常的想法。但是数据挖掘工具并不能直接通知决策者应该把啤酒和尿布摆在一同卖。国内企业有很多实施了数据仓库,但结果大多不尽如人意,其关键的缘由在于,建设数据仓库时一定要先确认为什么要投资数据仓库?要利用数据仓库处理什么问题?数据仓库要达到什么目的才可以告一段落? 否则做完数据仓库还不知道该怎样来用,如何评价其成功与否。其次,数据仓库不是那种买来就可以使用的软件产品,理想上,数据仓库更像一个过程,一个用户逐渐认识本人、提高本人的过程。第三,数据仓库不只要反映出企业的现状,而且还要依托用户做出最终的决策。总之,国内数据仓库不太成功的缘由除了用户的使用水平、业务管理水平有待提高外,数据仓库产品价格居高不下的缘由也多多少少影响到其在国内的顺利推广。陈道斌:我本人是从事信息分析方面任务的,对于为什么要借助数据仓库也正在展开一些研讨。作为用户我感到,银行业最需求数据仓库技术,也最应该大力发展数据仓库技术。近几年国内几大银行都在这方面进行了一些尝试,然而迄今为止失败者多,成功者少。其中最次要的缘由就是许多银行在建立数据仓库系统时,对系统所要实现的功用定位不明确。一个数据仓库系统应明显区别于业务处理系统,由于业务系统的要求往往是快速呼应和界面简单等。而数据仓库与业务系统并不是平行的关系,它应该是基于所有业务系统之上的,对业务信息进行采集、分析、整理和发布等,应该是一个稳定的、带有时间参数的数据集合。数据仓库技术本身并没有新的内容,它是管理科学、计算机科学、网络科学和分析手段的大融合。数据仓库技术好用吗?掌管人:数据仓库使用不理想能否存在技术上的缘由?使用者的层次与数据仓库前端工具之间能否存在矛盾?孟晓峰:在数据仓库的三个概念中,数据仓库是企业进行数据分析的基础,它的次要任务是将数据库中的原始数据进行归纳整理,聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类分析工具,一类是做分析型任务的OLAP,另一类是做预测型任务的数据挖掘。数据挖掘概念的提出,是希望发现像“啤酒和尿布”这样具有关联性的规律。但目前这套技术体系,无论在中国还是在世界其他国家,使用都遭到一定制约,最次要的缘由是,这套技术还没有达到数据库技术的成熟度和易用性。但目前看来,所有产品的可用性都还值得怀疑,由于如果你不是一个数据库专家、统计学专家以及人工智能专家,你将很难用好这样的分析工具。目前市场上的数据仓库产品都是基于一个通用的技术平台而设计的,这种产品虽然能够处理不同用户的分析需求,但它没有将特殊领域的商业逻辑与数据仓库技术集成起来,因此分析效果不可能达到峰值。另一个技术瓶颈是目前各种算法层出不穷,还没有经历一个大浪淘沙的沉淀,而数据库中的检索技术经过人们多年的摸索,曾经构成几种固定、成熟的技术模式,这是数据仓库产品没能达到数据库产品实用性的另一个缘由,所以说目前数据仓库技术的发展仍处于积累阶段。陈道斌:工商银行在建立数据仓库系统时的统一认识是,在市场上买不到可以直接使用的数据仓库产品,必须依据本人的业务进行量身定制,必须将本人的数据源及业务需求理清楚,然后将两头搭桥的任务做好,这个搭桥的任务需求市场上的数据仓库产品的支持,从一开始就必须留意业务与技术的协调。祁国辉:由于数据仓库是从西方国家产生的,它带着浓厚的西方文化色彩,最典型的是数据仓库中的报表展现。国外的产品注重的是报表内容,但是中国要求内容和格式一样重要,甚至有些时候格式比内容更重要,在这一点上,国外的报表工具很难满足中国用户的需求。数据仓库作为一个工具,企业内部每个层次的用户都可能利用它产生效益,但是真正实现起来,还是存在用户水平与需求问题,我们不可能要求每个用户都能够自已去数据仓库中获取数据,而且安全措施也不允许这样做。这时,我们需求的是一系列不同的数据仓库前端工具,而这正是目前所有的数据仓库产品都缺乏的。目前的产品大多数只提供一种工具,试图满足所有人的需求,结果每团体都不满意。 数据仓库使用范围如何?掌管人:哪些行业对数据仓库的需求较大?目前数据仓库技术在国内哪些行业使用较好?为什么?杨顺生:我曾经依据一些假设条件对某些行业和企业实施数据仓库的成熟度作过分析。在2000年全球财富杂志500家名单中,有近50%的企业曾经实施了企业级数据仓库或部门级数据集市,我们了解到电信、银行、零售、航空、铁路、邮政、食品、消费类制造、汽车、医疗、保险等行业是对于数据仓库技术需求最为强烈的行业。在所有这些实施了数据仓库的行业中,所占比例分别是:零售业17家、航空业16家、有线电话15家、挪动通信企业14家、银行业13家。另外,我们还对目前全球不同行业实施过数据仓库的企业数量进行了统计:依据国外实施的经验,我们发现,领导的需求度、信息技术基础设备、分析型的使用需求以及竞争的激烈程度这四项要素是影响企业实施数据仓库进度的关键要素。企业规模越大、历史数据越多,实施数据仓库的迫切性就越高;零售和制外型企业目前较注重成本控制,会首先使用营运和生产的分析型使用;政府监管部门由于历史数据采集的困难,实施数据仓库的速度绝对较慢;企业集团总部为加强监管,会采用数据仓库作为处理和分析大集中的信息技术手段;受过工商管理学教育的领导,比较注重科学化的决策手段,因此比较支持数据仓库的建设。陈道斌:目前在中国金融系统只要工商银行在数据仓库的使用方面有所突破,其缘由是:首先工商银行规模较大,客户群庞大,因此必须对客户进行深入研讨,以实现以客户为中心的服务模式;其次,早在1999年9月1日,工商银行就提出将所有业务都集中在北京和上海两个中心进行处理,实际上处理了建立数据仓库所必需的数据集中问题;第三,工商银行有一个最大的优势,就是曾经推行了一套统一开发的综合业务系统,提供了客户信息整合的条件。而从领导支持的角度看,如今的行长是专门研讨高技术环境下的商业发展问题的,他对于利用信息技术发展银行业务有着独到的见解,因此工商银行目前在数据仓库的第一个项目(客户关系管理)上曾经有了实质性的进展。怎样跨过数据仓库门槛?掌管人:中国数据仓库市场成熟吗?对于前面所提到的制约要素,我们能够提出哪些处理思路?应采取什么样的措施和手段来推动中国企业数据仓库的使用?祁国辉:这个问题问得好!Gartner Group 曾经有一份数据仓库市场占有率的报告,从报告中可以看出,到2003年,美国的数据仓库销售额将占全世界的58%,亚洲只占7.5%,不难看出我们的差距。但是目前两者的技术发展速度相差不多,所以说数据仓库使用市场在中国还是存在的。我认为独一的处理办法是,让企业直接面向竞争激烈的市场,改变管理思路,这样很快就会产生需求,看书学拳击永远也领悟不到拳王的丰富经验。孟晓峰:如今越来越多的公司在建立基于Web的电子商店,这些商店可以收集到大量的原始数据,因此电子商务成为数据仓库技术极有前途的使用