spark tuning
-
Spark Join Tuning & Key Salting / Part 3Data Engineering/Apache Spark 2022. 3. 5. 15:40
1. Sort Merge Join 1-1. 개요 1-2. 이상적인 성능을 발휘하려면 2. Broadcast Join 2-1. 개요 3. Shuffle Hash Join 3-1. 개요 효율적인 Join을 방해하는 것들 Data Skewness를 해결하려면? Key Salting Key Salting 이란? Salting Method 예제 Reference Spark에서 join을 수행하는 경우는 크게 두 가지로 나눌 수 있다. (1) 큰 테이블과 작은 테이블을 조인 또는 (2) 큰 테이블과 큰 테이블을 조인. Spark은 join을 수행하기 위해 Sort Merge Join, Broadcast Join, Shuffle Hash Join 등의 방법을 제공한다. 핵심 키워드 : sort merge join, ..
-
Spark Partitions Tuning / Part 02Data Engineering/Apache Spark 2022. 3. 4. 14:57
목차 Partitioning 이란? Partitioning의 종류 Partitioning을 안할 경우 Partitioning을 할 경우 주의사항 파티셔닝을 사용하면 도움이 되는 연산들 coalesce와 repartition 차이점 Partition의 종류 (Read, Write, Shuffle) Input Partition Output Partition Shuffle Partition Shuffle Partition Tuning 최적화 실험 실험 구성 예시 코드 실험 1: 코어 수에 맞게 파티션 수 설정(대조군) 결과 실험 2: 파티션 수 6배 증대 결과 실험 3: 쿼리 최적화 결과 실험 4: 최적화 후 코어당 메모리 감소 최적화 실험 결론: 최적화 시 고려할 점 참고 각 실험별 정리 최종 결론 Refe..