赞
踩
危害:
1、小文件过多会占用namenode过多内存在存储元数据,给namenode内存带来压力
2、计算时,每个小文件需要一个map task进行处理,浪费资源
3、读取时,需要花费较多的寻址时间
解决办法:
1、上传HDFS之前,对小文件进行合并后再上传;
2、采用har归档的方式对小文件进行存储,可将多个小文件打包成一个har文件
3、计算的时候,采用combineinputformat的切片方式,可将多个小文件放到一个切片中计算
4、开启uber模式,实现jvm重用,让多个task共用一个jvm,这样就不必伟每个task开启单独的jvm
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。