作者:Sybase软件(北京)有限公司 市场部副总监 夏红
内容:数据仓库概念,Sybase的数据仓库解决方案
--------------------------------------------------------------------------------
数据仓库的概念
任何一个公司和企业,在订货、存货清单、票据清单、帐目清算、客户服务以及
财务报告等方面都存在大量的业务应用和技术环节。数据仓库的作用在于:从这
些应用系统中获取信息并转换到一个新的数据库,通过对新库中的历史信息和面
向主题的信息进行分析,为决策提供支持。以往的产品系统,如订货或购置系统,
则很难从中获得有关商业发展状况的信息。
数据仓库是企业决策支持的一部分。在做出下一个决定前,每个商业机构中的行
政人员和分析人员都需要将许多关键商业问题搞清楚,例如:哪些产品最有利可
图?哪些客户会为我们带来最大利益?哪些环节需要花费很高的费用?哪些市场活动
运行得最好,为什么?我们有可能会失去哪些客户,为什么?
这些都是数据仓库要
回答的“百万利润”问题,也同时是一个最大的市场。据 Gartner估计,60%
的关
系数据库管理系统被用作决策支持系统的应用开发。
数据仓库与数据集市的比较
在二十世纪八十年代中期,Bill Inmon首次提出“数据仓库”这一名词。它最初被
设计为一个商业数据库, 具有稳定性(主要成分不变)、历史性(包含历史信息)和面
向主题(信息由客户、产品和市场等组成)等特点。这些最初的“数据仓库”根据
对客户、产品、销售情况和财务状况等信息的分析,得到对企业活动的整体认识。
要建立一个数据仓库,一般分为四个步骤:
第一步:数据库设计,即设计出一个包含商业数据和信息的数据库,为商业实体
所用;
第二步:开发数据抽取和转换程序,从产品系统中将数据取出后放入数据仓库中;
第三步:开发数据加载和更新技术,使得在产品数据发生变化时,数据仓库得到
动态实时的更新;
第四步:购置查询和报表生成工具,令使用者通过企业内部网和个人计算机很方
便地获取信息。
多年以来客户发现:尽管企业级数据仓库很有吸引力,但是具体操作起来有些难
度。1996年“IDC研究”调查结果表明:尽管为建立数据仓库平均投入了三年多
时间和近320万美元,50%没有达到应有的效果。从项目开始算起,三年后,大多
数商人发现所面临的商业问题已经不再是开始建立时的样子,发生了很大变化。
另外,尽管开发进度被延长了一年又一年,仍然做不到让所有感兴趣的客户对想
看到什么信息给出明确的需求定义。因而“企业数据模型”的确立如同练习一样
进行了一年又一年。
在最近的18-24个月的时间里,出现了一种新的解决办法,那就是数据集市。数据
集市也是一种数据仓库,只是它更精练,更面向主题。Sybase公司自创立以来,
便确立了在数据集市技术上的领导地位。目前,使用Sybase产品的2万多家客户中
的大多数已经建立了运行在SQL Server上的数据集市,尽管通常也称为数据仓库,
却几乎没有一个是企业级的。
数据集市的优势在于建设周期的缩短和费用上的大大降低。其中周期以月代替了年,
费用从几百万下降到一百万。由于整个企业的数据很庞大,真正将它们集中到一个
数据库中几乎是不可能的。有人便对很多大数据仓库实质上是不是数据集市产生了
怀疑。使用数据集市后。设计、抽取、转换、加载和查询等环节变得更加简单,因
为客户中的一部分人能够更精确地知道他们自己所需要的信息是什么。
然而,如果有很多的数据集市却不能使它们保持同步,数据集市解决方案就会遇到
困难。一旦一个单位创建了两个或两个以上的数据集市,最大的问题就是如何使它
们之间协调一致,如何使它们实时操作,以及如何维护所有的数据抽取和转换。另
外,当一个单位要创建两个或两个以上的数据集市时,会发现每一个都要经过一个
重新的设计、抽取、加载和查询步骤。于是,在面对多个数据集市的开发时,如何
共享设计和结构成为一个有现实意义和挑战性的问题。
运作型数据存储与合并式数据仓库
针对上述问题,一种解决方案是采用一种全新的数据仓库概念 ---“运作型数据存
储 (Operational Data Store,ODS)”。在ODS方式下,数据被从业务数据库中复制到
一个中心位置,再从这里被抽取到多个数据集市中。ODS是从客户、产品和其他商
业角度来组织的,被称为商业状况的“实时快照”。它不包含历史信息,但可以很
容易地满足一个历史数据库或一组面向主题的数据集市的需要。
我们一般称之为“合并式数据仓库”,因为它在进入决策支持数据库以前是一个信
息的结合点。ODS虽小,却能被经常地修改,因而非常适合于建立在Adaptive
Server
Enterprise 和 Replication Server上。
多维或OLAP(联机分析处理)市场
作为数据仓库应用环节中的一部分,在市场份额上得到快速增长,变得越来越大。
简单来说,OLAP是从商业角度进行信息组织,而不象通常的由行、列和表构成。
例如,在一个类似 Arbor 或 Oracle Express 的 OLAP数据中,信息是通过客户、产
品、日期、销售部门和地域等属性来存取的,这对于数据理解和信息获取来说都
显得非常直观。
OLAP产品取得关系数据后,将它放入一个非常简单的表格中,使之很容易分析。
数据库和一个OLAP产品可被看做一个多维表格。这个市场相当热门,Arbor、
Oracle的 Express 和 Microstrategy 在此领域中各占一席之地,而 Sybase的
Power
Dimentions (原名whitelight),Cognos的 Impromptu 和 Powerplay,Brio Technology 的
BrioQuery处于优势地位。
竞争对手与合作伙伴一览
RDBMS公司:Sybase,Oracle,IBM,Teradata/NCR,Informix,Microsoft
硬件公司:IBM,Teradata,Sun,Digital/Compaq,HP
转换工具:VMARK,Infomatica,Carleton/Apertus,ETZ,Prism Solutions
OLAP:Sybase/PowerDimentions,Arbor,Oracle/Express,Microstrategy,
Information Advantage。
Sybase 的解决方案及其组成
Sybase拥有一个独特而强有力的点对点方案,用来设计、建立和管理数据仓库和数
据集市。各个部门之间通过集中的元数据进行交互,这便具有了完整性、集中性和
灵活性等特点。我们的工具也具有很多优越性能。
下表列出了各个组成部分:
(1)PowerDesigner Warehouse Architect
PowerDesigner不但是业界知名的数据库设计工具,也是数据仓库模型设计工具。其
中的 Warehouse Architect模块支持多种数据仓库模型,包括星型模式、雪花模式、以
及雪暴模式。这是同行业中最优秀、最灵活的开发工具,可用来设计一个关系的或
OLAP的软件仓库。PowerDesigner在数据仓库设计工具市