上传者: qq_42692756
|
上传时间:2020/11/24 10:43:05
|
文件大小:5.59MB
|
文件类型:PPT
关于Spark数据倾斜的优化
在shuffle操作的时候,是按照key来进行value的数据的输入,拉取和聚合的,同一个key的values,一定是分配到同一个reducetask进行处理的,假如多个key对应的value一共有90万条数据,但是可能某条key对应了88万条,其他key最多也就对应数万条数据,那么处理这88万条数据的reducetask肯定会特别耗费时间,甚至会直接导致OOM,这就是所谓的数据倾斜
本软件ID:10555171