最近用到spark 接kafka数据落到kudu里,如果用默认spark 参数,会出现一些问题,下面是在生产上调优后的一些参数,供参考
//推测执行
spark.locality.wait=2sspark.speculation=truespark.speculation.interval=300sspark.speculation.quantile=0.9spark.speculation.multiplier=1.5//常见配置
spark.executor.memory=4000Mspark.executor.cores=1spark.executor.instances=12spark.streaming.concurrentJobs=1//反压
spark.streaming.backpressure.enable=truespark.streaming.backpressure.initialRate=30000spark.streaming.kafka.maxRatePerPartition=1000