conslidate是如何优化Hash shuffle时在map端产生的小文件？ChatGPT批发|ChatGPT账号购买|ChatGPT Plus4.0代充|ChatGPT教程手册|互联网免费项目资源分享|AI绘画关键词|免费副业项目资源|编程面试题|Java面试题|Python面试题|前端面试题|测试面试题|IDEA激活破解码|Pycharm激活破解码|Navicat激活破解码|软件下载|SD关键词|MJ关键词

conslidate是如何优化Hash shuffle时在map端产生的小文件？

admin • 2023年11月30日 am3:26 • Spark • 阅读 66

1）conslidate为了解决Hash Shuffle同时打开过多文件导致Writer handler内存使用过大以及产生过多文件导致大量的随机读写带来的低效磁盘IO；

2）conslidate根据CPU的个数来决定每个task shuffle map端产生多少个文件，假设原来有10个task，100个reduce，每个CPU有10个CPU，那么使用hash shuffle会产生10100=1000个文件，conslidate产生1010=100个文件

注意：conslidate部分减少了文件和文件句柄，并行读很高的情况下（task很多时）还是会很多文件

发布者：admin，如若转载，请注明出处：https://ai1024.vip/36858.html

conslidate是如何优化Hash shuffle时在map端产生的小文件？