https://code-lib.tistory.com/13 Spark partition 이해하기 스파크에서 분산 병렬처리를 위해서 Partition에 대한 이해는 필수 스파크 작업의 가장작은 단위는 task다 그리고 task는 1개의partition이다 1 task == 1 partition task는 core에 할당되고 이 core들의 집합은 1 code-lib.tistory.com partition이해하기에서 추가적인 설명을 덧붙이고자 한다. 1. spark.default.parallelism VS spark.sql.shuffle.partitions spark.default.parallelism이란? join, reduceByKey 같이 RDD에서 적용되는 파티션을 다룰때 사용된다. 오직 RDD단에만 ..