日期:2014-05-16  浏览次数:20388 次

成长型公司如何构建存储架构

big data problem

随着大数据时代的到来,合理构建可持续的存储架构已经成为企业数据中心IT主管们面临的头号难题之一。经常有人问我,如何为成长型公司的大型系统部署存储架构,尤其是当这些大型系统承载视频、音频、或社交类网站时,该如何构建存储架构?以下介绍一些我们常选择的方法及各自的优点。

构建存储架构时,要考虑许多问题,最明显的如存储容量、访问速度、缓存选择方案、服务器共享方式、访问协议及访问方法、安全及备份等等。

首先,我们认为最好的存放地址是存放在云中,这些服务存放在云中会很安全,如Amazon S3,阿里云OSS,或 Qiniu’s 的动态系统。但是,若你是自己想存储数据的话,你可以选择不同类型的存储容量。

DAS - 直接附加存储,也称为本地硬盘存储,是一种最普遍、速度最快也是最为经济的存储解决方案。现在已经有4TB的硬盘,再加上标准机箱可以有6-8个这样的硬盘,所以,若服务器是RAID5 配置的话,很容易就能达到20TB 以上。同时使用多个服务器的话,也很容易就能达到100TB,但是管理起来并不容易。所以,DAS是本地数据库存储、NFS共享存储及其它简单系统最好的存储选择方案。要想找一个比较简单的存储方案,这不失为一项最佳选择。

NAS – 网络附加存储也比较盛行,由两部分组成。最常见的情况就是 简单的服务器之间的NFS 共享,这种存储方式采用上文所述的大型TB硬盘,能存储简单的共享图片甚至视频,也能够达到十几TB 的存储量。

NAS 的第二种解决方案,则是商业解决组件,如NetAppFiler, 其存储容量可达几百TB,是一个强大的NFS解决方案,这些通常运用于大型系统,但是缺点是,当系统扩展受成本限制时,对此类存储进行扩展会花费很大的成本。

SAN - 存储区域网络,常被认为是NAS的“大哥”。但是,由于其成本太大且难以管理,所以,互联网行业通常不选择此解决方案。此外,该种存储不能够很好的响应互联网公司的共享需求,因为这种方案只连接几台高IO要求服务器如Oracle数据库联系在一起。

群集存储 - 在不用NFS 的情况下,这种方式越来越多的被用于解决共享问题。这种存储方案最好的优势在于,由于是群集存储,所以可以允许存储冗余存在,而这在DAS 或NAS系统中是很难实现的。常用的群集存储方式包括RedHat公司拥有的GlusterFS, 以及MogileFS。

这些系统通常管理起来很复杂,而且也有很多限制,如文件存放,空间管理及访问方法。例如,GlusterFS 就是由客户端进行管理,且以FUSE挂载,而MogileFS则根本无法挂载,因为它采用的是库驱动API,由PHP进行访问的等等。

群集存储容量可以扩大,甚至扩展到100TB,通常用于中等大小的图片或视频系统,前提是已经知道了它的限制和复杂性。

分布式存储 – 是群集系统的一个远房“表亲”,完全分布式的系统和Google File System比较接近, 在这个系统中,所有的文件、分布、复制、空间等都自动由系统进行管理。客户通常通过内核驱动程序安装该系统,整个分布式系统就像是