MapReduce处理压缩文件

随着目前数量越来越大,很多在日志文件需要压缩存储,那么压缩文件在大数据内是否可以用MR 进行处理?下面我这边用hive处理gzip的文件

建表语句:注意存储格式是text格式的

create table hive_gzip_formate_example(
username string COMMENT '用户名',
occupation string COMMENT '职业',
age string COMMENT '年龄')
COMMENT 'hive_gzip_formate_example'
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'='\u0001',
'serialization.format'='\u0001')
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

上传gz文件

[xlucas@localhost ~]$ hadoop fs -ls /user/hive/warehouse/xlucas.db/hive_gzip_formate_example/
-rw-r-----   3 xlucas xlucas         66 2020-07-03 15:40 /user/hive/warehouse/xlucas.db/hive_gzip_formate_example/GzipFormateTest.gz
-rw-r-----   3 xlucas xlucas         66 2020-07-03 15:45 /user/hive/warehouse/xlucas.db/hive_gzip_formate_example/aa.gz

查询数据,没有问题

hive (xlucas)> select * from hive_gzip_formate_example;
OK
username      occupation    age
zhangsan        it      20
lisi            sale    30
zhangsan        it      20
lisi            sale    30