1. 首页
  2. 大数据
  3. Spark

调优--优化数据结构



Java中,有三种类型比较耗费内存:
1)对象,每个Java对象都有对象头、引用等额外的信息,因此比较占用内存空间。
2)字符串,每个字符串内部都有一个字符数组以及长度等额外信息。
3)集合类型,比如HashMap、LinkedList等,因为集合类型内部通常会使用一些内部类来封装集合元素,比如Map.Entry

Spark官方建议,在Spark编码实现中,特别是对于算子函数中的代码,尽量不要使用上述三种数据结构,尽量使用字符串替代对象,使用原始类型(比如Int、Long)替代字符串,使用数组替代集合类型,这样尽可能地减少内存占用,从而降低GC频率,提升性能。

发布者:admin,如若转载,请注明出处:https://ai1024.vip/36886.html

QR code
//