何为大数据
1.数据规模
这个是最基本的要求,数据规模不到一定级别,你就不好意思说你是大数据。但数据规模多大才算大,我给不出来一个通用的数字去界定大数据。虽然很多公司的数据量都会上P,但这个不能作为大数据的标准。自我感觉,能称自己公司已经进入大数据时代,这个公司就需要考虑如下几点去应对自己的数据:1.独立的离线历史数据存储;2.数据保密管理策略;3.数据仓库+数据分析;4.成熟的基于数据的商业模式或者产品。
2.数据结构
我们不能武断的认为一个日产百T数据的公司就是大数据公司,一个日产几T数据的公司就不是大数据公司。如果新浪微博是web1.0的产品,那就假设所有的微博是新浪公司员工编写,我们这些用户只有一种操作:只能阅读,顶多把信息做个归类,不能写微博、评论、转发。那对微博产生的数据只需要简单的分析就能搞定,说不定根本就不会涉及到数据挖掘。这样的算不算大数据公司。庆幸的是,新浪微博是web2.0的产物,他上面的写手和读者五花八门,人们的交互方式千变万化,上面的应用纷繁冗杂,这些数据的结构复杂太多了吧。数据分析、数据挖掘技术可以发挥无穷的作用,像这样的数据规模+数据结构才算大数据。
3.数据内容
网络丰富了我们的生活,同时也丰富了公司的数据。哪家互联网公司提供的服务不是丰富多彩,用户在网络上得到他自己想要的资讯、知识、物质产品、兴趣和虚拟关系等等的同时,也留下来他的行为数据。这些数据如果是千万人,上亿人甚至更多人的行为数据,分析用户与用户、用户与行为、行为与行为,对网站的长期运营、用户粘度、用户服务、战略决策,甚至经济发展都有非常大的价值。但是实际上,这些价值不是这么容易得到的,因为数据大部分是碎片化的:一方面,唯一不变的就是变化,人的行为在特定时间、特定环境、特定经历、特定人生阶段下都是变化的,就算同一个人在连续两天访问一个网站的行为和目的都可能不一样,我们很难串联起用户行为数据。这个难题不是不能克服的,现在数据分析和挖掘手段这么多,总能找到有价值的信息;另一方面,网站的结构碎片化,提供的服务之间互相独立,或者关联度不强,虽然一个用户使用了网站提供的5个服务,但是这5个服务的行为数据无法关联起来。就是因为这种数据内容的不可关联性,导致了数据的可利用性大大降低,也是因为数据内容不具备关联性,其实整个网站的数据结构是很简单的。国内很多互联网公司都在强调平台,就是要把整个网站给串起来,业务逻辑清晰,服务要么是闭环,要么星形、要么总线,总之是有拓扑结构的,数据就可以这么关联起来发挥大作用。数据驱动业务的事情会越来越多。
4.数据使用
如上3点好像更多的是和数据本身相关:数据量、数据结构、数据关联性。但就是这些特性给了大数据提出了更高的要求,就是如何使用大数据。从数据管理、数据集成、信息管理、数据分析到数据价值都要想,都要做。这里不再展开说明,只说明如何利用数据是多么重要的一件事情。