1. 首页
  2. 大数据
  3. Spark

conslidate是如何优化Hash shuffle时在map端产生的小文件?



1)conslidate为了解决Hash Shuffle同时打开过多文件导致Writer handler内存使用过大以及产生过多文件导致大量的随机读写带来的低效磁盘IO;

2)conslidate根据CPU的个数来决定每个task shuffle map端产生多少个文件,假设原来有10个task,100个reduce,每个CPU有10个CPU,那么使用hash shuffle会产生10100=1000个文件,conslidate产生1010=100个文件

注意:conslidate部分减少了文件和文件句柄,并行读很高的情况下(task很多时)还是会很多文件

发布者:admin,如若转载,请注明出处:https://ai1024.vip/36858.html

QR code
//