日期:2014-05-16  浏览次数:20429 次

数据分析之前提--数据质量

                                                                

数据质量是什么

最近,数据分析是个热门话题。传统意义上,数据分析分两类:EDA(Exploratory Data Analysis,探索性分析)和CDA(Confirmatory Data Analysis,验证性数据分析)。EDA讲究让数据自己说话,而CDA进行分析之前一般都有预先设定的模型。

其实,数据分析和数据挖掘的重点都不在数据本身,而在于如何能够真正地解决数据运营中的实际商业问题。但是,要解决商业问题,就得让数据产生价值,就得做数据分析和数据挖掘。而在数据分析和数据挖掘之前,首先必须保证高质量的数据,完成数据质量的处理工作,即对数据的集成和处理。因此,更好的数据意味着更好的决策,否则就是GIGO-Garbage in,Garbage out.

所以,数据分析的前提就是要保证数据质量。

数据质量要做什么

传统的数据质量工作主要包括两方面:数据集成和数据清洗,关注的对象主要有原始数据和元数据两方面。

一、数据的集成

数据的集成主要解决信息孤岛的问题,包括两方面:

1)数据仓库对源数据的集成.

2)元数据系统对不同数据源中的元数据的集成。

相应的,数据质量管理也关注两方面:

1)对数据仓库中的真实数据的质量探查和剖析.

2)对元数据系统中元数据的数据质量的检查.

二、数据的清洗

数据质量处理主要是采用一些数据清洗规则(DataCleansing)处理缺失数据、去除重复数据、去除噪声数据、处理异常(但真实)的数据,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性等数据质量

元数据的管理目标是整合企业信息资产、支撑数据在使用过程中的透明可视,提升数据报告、数据分析、数据挖掘的可信度,所以元数据的数据质量检查着重在元数据信息的唯一性、一致性、准确性的检查。

数据质量怎么做

一、数据质量的难点

直到现阶段,很多人还是没充分意识到数据质量的重要性,原因有:

1)数据质量问题还没有严重到影响其核心KPI的考核。

2)对数据提供团队或者数据应用团队挑出其数据质量问题,很容易被踢皮球,推卸责任,因为数据质量问题往往都是众多环节综合问题导致的结果。很多人会认为数据质量的引入会给自己的工作带上镣铐。

3)数据质量团队往往是从监控、监督的角度去开展工作,没有从数据使用者的自身价值的角度去提升数据质量,帮助数据使用者更好的从数据治理工作中获得价值,提升工作效率,增加工作的权威度和可信度,直接给数据使用者带来业务价值,从而让更多数据相关人员主动参与到数据质量的工作中来。所以,目前很多人都在谈论数据质量,却很少有人愿意有实际行动。

二、数据质量的提升步骤

当风险还不是一个关键问题时,设立我们的风险分析团队,对企业来说,也是一个很重要的防备举措。企业数据部门的管理高层,必须达成一个共识,综合的数据质量解决方案能给公司带来巨大价值。在此基础上,通过有计划的步骤来进行企业内部的数据质量提升:

第一步,在企业范围内,开展数据质量的相关讨论,考虑公司目标以及各方利益,形成数据质量治理的目标、方针、策略、步骤,在企业范围内,至少在数据管理和数据治理团队内部能达成广泛共识。

第二步,建立企业内部的职责和数据质量策略,建立劣质数据的经济影响和高质量数据价值的评估体系。

第三步,建立开放的数据质量管理体系,把数据质量工作从单一由数据管理团队负责的工作,转化为公司内部所有数据提供者、数据处理者、数据使用者等数据相关者的共同参与。数据相关人员,会像司机关心实时交通状况一样,关心数据质量、数据安全等数据运营过程的数据运营全景图和数据质量问题热力图,并能简单的从热力图上,很容易看到跟自身责任的相关性,并及时参与处理。

大数据时代对数据质量的挑战

一、 大数据时代还需要关注数据质量么

关系数据库时代,我们可以用数据仓库和商业智能的相关技术,完成数据集成、数据分析和数据展示。但大家都知道,大数据时代,数据存在4V特点:

1)  Volume:数量,数据量巨大,从TB到PB级别

2)  Variety:种类,数据类型繁多,结构化、非结构化、半结构化等多样性数据混杂

3)  Velocity:速度,处理速度快,1秒定律,跟传统数据挖掘需要漫长等待有本质不同

4)  Value:价值,价值密度低,商业价值高

红遍全球的《大数据时代》一书中著名的论点提到,大数据时代人们需要有三个思维方式的转变:

1)要全体不要采样

2)要效率不要精确

3)要关联不要因果

如果用“要全体不要采样”的大数据思维,所有数据统统采集过来就是,对传统概念源数据中的脏数据、错误数据、噪声数据、重复数据等都可以不用关心了。大数据时代,我们是否就真的只用关心“全量”,不用关注“质量”了呢?

恰恰相反。

大数据时代,除非某些互联网公司的某些特殊要求,比如搜索引擎利用爬虫技术,需要采集大而全的数据,其他一般的数据管理需求,如果也试图管理或控制一切非结构化的数据,是一种危险倾向。由于数据量巨大,价值密度很低,最终可能导致数据丰富,信息匮乏,浪费时间和资源在一些不重要的无关数据、垃圾数据、噪音数据上面。

在数据存储、数据分析和数据挖掘技术还没有发展到可以直接支持大数据之前,我们数据分析的样本都是在有限的高质量的数据中进行的,所以只可以容许大数据在源头的杂乱,但不能容许进入数据分析和数据挖掘的样本数据完全被大量的无关数据霸占。所以,大数据质量治理要能够支持源头的混乱无规则,重点在设计合理的丢弃规则,能快速的从数据沙漠中丢掉沙子,淘出金子。只有在取得准确、全面、及时的高质量数据的基础上,才能借由有效的分析手段,呈现出数据背后的商机或警示。否则,再好的商业模式都只是基础薄弱的空中楼阁。

大数据分析结果直接影响商业决策,所以,对大数据质量、大数据清洗技术会要求更高、更严苛。当然,不久的将来,如果发展到可以支持真正意义上全量大数据挖掘,则数据质量将主要突出体现在主数据、基本商业数据、数据安全级别较高的数据等核心数据领域。

二、 大数据时代的数据质量怎么做

判断数据是否有价值最直接标准是:从商业角度出发,是否有商业目标需要这些数据。面对大数据,这一点仍然可以参考。认为数据治理只是IT部门的责任,只把数据治理当成软件产品来做是很片面的想法。数据治理不光是软件,还要有相应的指导思想、目标、流程、制度、方法。

大数据治理需要一套完整的数据治理体系,需要把数据当做核心资产来运作,需要转变思想,把数据运营转变为运营数据,主动从数据中获取商业价值。

就技术而言,目前主要有三种逐渐成熟的基础技术用来支持大数据治理: