日期:2014-05-16 浏览次数:20517 次
hive文件存储格式包括以下几类:
?TEXTFILE
?SEQUENCEFILE
?RCFILE
?自定义格式
SEQUENCEFILE:
SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
SequenceFile支持三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩。
示例:
stored as rcfile
location '/group/tbdataapplication/mirror/r_auction_auctions_mirror_rc/';
RCFILE
RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
RCFILE文件示例:
stored as rcfile
location '/group/tbdataapplication/mirror/r_auction_auctions_mirror_rc/';
?