코드창고

  • 홈
  • 태그
  • 방명록
코드창고

2024/02/16 2

Repartiotion 방법

https://code-lib.tistory.com/13 Spark partition 이해하기 스파크에서 분산 병렬처리를 위해서 Partition에 대한 이해는 필수 스파크 작업의 가장작은 단위는 task다 그리고 task는 1개의partition이다 1 task == 1 partition task는 core에 할당되고 이 core들의 집합은 1 code-lib.tistory.com partition이해하기에서 추가적인 설명을 덧붙이고자 한다. 1. spark.default.parallelism VS spark.sql.shuffle.partitions spark.default.parallelism이란? join, reduceByKey 같이 RDD에서 적용되는 파티션을 다룰때 사용된다. 오직 RDD단에만 ..

spark 2024.02.16

Spark partition 이해하기

스파크에서 분산 병렬처리를 위해서 Partition에 대한 이해는 필수 스파크 작업의 가장작은 단위는 task다 그리고 task는 1개의partition이다 1 task == 1 partition task는 core에 할당되고 이 core들의 집합은 1개의 executor가 담당한다 (보통 spark에서는 1~5개를 1개의 executor에 할당한다 그 이상은 경험적으로 spark성능에 좋지 않은 영향을 준다.) ※ 단 core != task 명심해라. spark.task.cpus 설정 옵션을 보면 Number of cores to allocate for each task.라고 설명 되어있다. 즉 task한개에 여러개의 core가 붙을 수 도 있다. 하지만 기본값은 1이다 즉 1개의 task에 기본적으로..

spark 2024.02.16
이전
1
다음
더보기
프로필사진

코드창고

  • 분류 전체보기 (26)
    • python (7)
    • spark (6)
    • pandas (0)
    • celery (0)
    • ubuntu (1)
    • docker (2)
    • architecture (3)
    • DB (1)
    • CS (2)
    • AI (2)
    • 트랜드 (1)

Tag

ubuntu, fastapi, stable diffusion, 스타로배우는 코딩, project-tree, Python, docker, Clean Architecture, off-heap, deap learning, restapi, kpop데몬헌터스, image generate, on-heap, Linux, AI, 개발자탈출, spark, django, memory,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2024/02   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바