有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的功能会比期望差很多。
数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的功能。
如果数据倾斜没有解决,完全没有可能进行功能调优,其他所有的调优手段都是一个笑话。
数据倾斜是最能体现一个spark大数据工程师水平的功能调优问题。
数据倾斜如果能够解决的话,代表对spark运行机制了如指掌。
数据倾斜俩大直接致命后果。
1数据倾斜直接会导致一种情况:OOM。
2运行速度慢,特别慢,非常慢,极端的慢,不可接受的慢。
我们以10
1