当前位置:   article > 正文

hive中小文件过多的危害,如何解决_hive小文件过多有什么影响?如何处理?

hive小文件过多有什么影响?如何处理?

危害:

1、小文件过多会占用namenode过多内存在存储元数据,给namenode内存带来压力

2、计算时,每个小文件需要一个map task进行处理,浪费资源

3、读取时,需要花费较多的寻址时间

解决办法:

1、上传HDFS之前,对小文件进行合并后再上传;

2、采用har归档的方式对小文件进行存储,可将多个小文件打包成一个har文件

3、计算的时候,采用combineinputformat的切片方式,可将多个小文件放到一个切片中计算

4、开启uber模式,实现jvm重用,让多个task共用一个jvm,这样就不必伟每个task开启单独的jvm

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/727989
推荐阅读
相关标签
  

闽ICP备14008679号