SparkSQL并行度参数设置方法

SparkSQL并行度参数设置方法

SparkSQL并行度是SparkSQL的第一个调优点,默认的并行度是200,需要根据实际情况进行设置,它有有两种设置方法,

  1. 在代码中直接设定
    1
    2
    3
    val spark = SparkSession.builder()
    .config("spark.sql.shuffle.partitions",100)//设置并行度100
    .getOrCreate()
  1. 在提交的时候提供参数修改,注意 代码中的优先级高于提交时的优先级
    这里是一个例子
    1
    2
    3
    4
    5
    6
    7
    8
    9
    ./bin/spark-submit \
    --class com.imooc.log.TopNStatJobYARN \
    --name TopNStatJobYARN \
    --master yarn \
    --executor-memory 1G \
    --num-executors 1 \
    --conf spark.sql.shuffle.partitions=100 \
    /home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \
    hdfs://hadoop001:8020/imooc/clean 20170511
-------------End Of This ArticleThank You For Reading-------------