日期:2013-10-09  浏览次数:20374 次

电信企业参与竞争的利器-数据仓库和数据挖掘
基于Sybase的广东电信数据仓库处理方案

广东电信科学技术研讨院

  1 概述

  随着电信市场的开放,竞争将越来越激烈。利润的降低使得必须从粗放的运营转变到集约的运营,同时运营决策需求尽可能多的定量的依据和尽可能快的速度。所有这些需求技术上的支持----数据仓库和数据挖掘广东省电信科学技术研讨院是华南地区通信技术支持及科研开发的最高技术部门,围绕保障通信大网运转安全、高效和通信市场的需求而进行系统维护支持、网管系统开发、多媒体研讨、网络技术与市场研讨、计费系统研讨与开发、人员培训和计量检测等七个方面的任务。研讨院目前拥有一支900多人的年富力强、实力雄厚的研发队伍。

  研讨院开发的Thinker-BC2000多媒体网综合业务管理系统是一套统一的综合业务管理系统。它为电信运营商以及各级ISP提供一个稳定而灵活的业务支撑平台。该平台能够提供所有的多媒体数据通信基本业务及各种增值服务,该平台具备极强的可扩展性,具备快速的新业务生成、推广能力。系统能够灵活地定义各项服务的资费政策,及各项业务的捆绑销售优惠策略,并对各项服务提供精确、实时的计费功用。其中的数据仓库决策支持系统是基于Sybase的数据仓库处理方案开发的。业务运营决策者可以利用这个系统快速精确地了解到各项业务的发展情况、为进一步的决策支持任务提供坚实的基础。

  2 需求次要特点

数据量庞大
目前,广东大众多媒体通信网拨号用户总数已达到70万。依据业务需求分析,广东省163/169网到2002年底的用户总数将达到800万以上,其中拨号注册用户达400万,主叫用户300万,卡用户100万,专线用户也将达到1万户以上。在这些大量的数据背后隐藏着许多重要的信息。
业务结构复杂
系统的最终用户是电信内部的各个部门,因此最终用户的需求不尽相反。
经常变化
业务策略不断变化。表现为资费政策的不断变化。
  3 方案引见

  Thinker-BC2000多媒体网综合业务管理系统的数据仓库系统模型如下图所示:

  
3.1 系统软件平台

  数据仓库的实施是一个相当复杂的过程,次要包括五个部分的内容:数据仓库的设计建模、数据转换与集成、数据存储与管理、数据的分析和展现和数据仓库的维护和管理。

  Sybase提供了覆盖整个数据仓库建立周期的一套完整的产品包:Warehouse Studio,它包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。以下说明了我们是如何结合Sybase的产品来做数据仓库的设计与开发。
数据仓库的设计、建模
  数据仓库的设计任务对于决策支持系统起着至关重要的作用,它需求依据决策需求确定主题,从数据源到数据提交,对数据仓库的数据组织进行逻辑结构的设计,还要按照业务用户最能理解的方式组织和提供信息。

  在这个阶段,我们使用了PowerDesigner WarehouseArchitect。WarehouseArchitect是个高度优化的数据库工具,广泛用于数据源的逆向工程、建模、数据仓库方案设计,以顺应每个业务需求。通过对逻辑设计、物理设计和使用建模进行集成,WarehouseArchitect方便了数据仓库的开发和实现。
数据转换与集成
  在进行数据仓库的建立时,最大的挑战之一是如何将原始业务数据转化为分歧的格式,使之更好地为决策支持服务。这包括对已无数据的精确性和分歧性进行检验、净化,将数据进行转化、提取、转换、装载到数据集市或数据仓库以及对其进行定期更新和管理。PowerMart作为数据抽取工具,从各种异够的数据源中抽取数据,在数据抽取过程,用户可以依据不同的抽取阶段,灵活定制各种数据抽取流程,并定时地将数据加载到数据仓库中。

  PowerMart是一个集成的软件产品套件,用于建造和管理数据集市和分析使用。PowerMart交付了一个开放的可伸缩的处理方案,次要定位于数据集市完整的生命周期和分析使用开发及产品化的管理,能够支持多种平台上快速变化的大量数据作为数据来源,进行复杂的转换处理以及支持高速的数据加载。其metadata repository 能够协调并驱动一系列的核心功用,包括抽取、转换、加载和管理等。

  PowerMart的图形化用户接口协助数据仓库管理人员很容易的设计复杂的source-to-target的映射,然后可以由PowerMart强大的服务器来自动地执行。
数据存储与管理
  数据仓库的存储可以选用多维数据库,也可以选用关系型数据库或其它特殊的存储方式。数据的存储要保证数据的安全性、完整性、分歧性,同时还要具有复杂的分析查询的高效性。

  我们选用了Sybase的数据仓库产品Adaptive Server IQ。Adaptive Server IQ是一个关系型数据库,为高功用决策支持和数据仓库的建立而进行了优化。IQ中的关键技术是纵向数据存储(通过列而不是通过行来进行)、Bit-Wise查询索引和数据紧缩。
数据分析和展现
  联机分析处理(OLAP)是一个分析处理技术,它从企业的数据集合中收集信息,并运用数学运算和数据处理技术,灵活、交互式地提供统计、趋势分析和预测报告。通过多种OLAP工具对数据仓库中的数据进行多维分析、汇总,构成图表或报表的方式,使决策者可以清晰、直观地看到分析结果,这正是数据仓库系统所要达到的目的。

  数据仓库的开发使用次要有结构设计、数据集中组织和管理、数据的快速高效访问等。其中数据的访问普通都是由较为成熟的业务智能工具完成,因此不同于OLTP系统,数据仓库系统的前端开发编程量是比较小的,但是其维护任务的时间跨度要大,由于决策支持使用的随意性较强,不可能再象业务系统那样固定一个统一的操作模式。

  BusinessObjects作为较早进入中国市场的业务智能提供商,其产品操作精简、功用丰富,并且有直观易懂的前端展现元数据管理部分,在这个处理方案中与IQ的高速查询效率相得益彰。
数据仓库的维护和管理
  元数据是关于数据的数据,能够表示、定义数据的意义及系统各组成部件之间的关系的数据,它包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求及数据时限等。管理好元数据是管理数据仓库的关键。

  Sybase的Warehouse Control Center通过对元数据仓库的集中管理,提供了数据仓库处理方案的保证技术。从设计和开发到实现到最终用户访问,由工具和数据库产生的对元数据的密集型集成和管理保证了真正企业级数据仓库的建立。Warehouse Control Center是基于Intellidex技术的为数据仓库开发人员提供的数据仓库元数据管理工具,能够在数据仓库环境下进行数据采集、捕捉、存储、管理和发布逻辑的、物理的以及上下文相关的信息,而不用去管它的物理存储位置是在联合数据仓库上、分布式数据仓库上还是二者兼有。业务用户可以浏览依据其需求而生成的元数据对象,甚至可以使用发布和登记功用请求或选择附加功用。

  3.2 系统硬件平台
数据仓库服务器:
sunE5500 / 8 cpu/4G RAM/18G硬盘
运转Sybase IQ。 数据迁移服务器:
IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4
运转PowerMart Server 管理Web服务器两台:
IBM Netfinity7600 intel PIII550/ 4 cpu/1G ram/ 36.4 G hd NT4
分别运转BO Web Intelligence和Warehouse Control Center Server。 存储网络:
采用Veritas的SAN系统
  3.3 系统次要功用
数据仓库与决策支持系统对在线事务处理使用和在线统计分析使用进行无效地隔离。保证了业务管理系统在线事物处理的安全、稳定、可靠、高效地运转,也确保了决策支持系统能够快速及时地获取统计数据。 省中心和地市业务管理人员能够每月按照要求生成事后定义好的标准统计报表。业务分析人员通过非常简单易用的图形界面,能够快速精确地进行语义层查询并把所需的业务数据、信息和分析结果以丰富的方式快速地展现出来,为领导的决策提供精确的依据。 提供数据挖掘功用,挖掘出潜在的影响业务发展的要素。
为客户管理系统提供服务,为客户提供快速的账单及各种服务清单查询。并提供挖掘大客户的手段。

  4 结束语

  我们曾经在广东视聆通和福建163网上,使用Sybase的数据仓库处理方案,成功实施了数据仓库系统,并且基于BO(Business Object)开发了统计分析报表系统。

  目前,正在建设广东省新一代的多媒体网综合业务管理系统,其中包括新版本的