[spark]MPP와 데이터레이크 하우스 관점에서의 Spark
어떤 아키텍처를 선택할지는 결국 **“병목이 어디에 있는가?”**에 기반함
1264 words
|
6 minutes
[Iceberg]Open Table format 개요
메타데이터 조작 방식은 필연적으로 **‘쓰레기 파일 생성’**과 **‘파티션 단편화’**라는 관리 비용을 발생시킴.
1820 words
|
9 minutes
[spark]Spark Shuffling 최적화
분산 처리 환경에서 데이터를 연산하기 위해 노드 간에 데이터를 재분배하는 과정. 정확히는 분산노드간 특정 키를 기준으로 클러스터 전체의 데이터를 조합하는것
1334 words
|
7 minutes
[DE Design Pattern]03-06. Static, Dynamic Late Data Integrator
프레임워크 기반: Spark Structured Streaming, Flink이 체크포인트 위치만 설정하면 자동 관리합니다.
1206 words
|
6 minutes
[DE Design Pattern]03-02. Window Deduplication 패턴
분산 시스템에서 exactly-once delivery는 매우 어렵습니다. 대부분 at-least-once 환경에서 동작하므로 중복 레코드가 발생합니다. 비즈니스 로직이 각 레코드를 한 번만 처리해야 한다면 중복 제거가 필요합니다.
1651 words
|
8 minutes
[de design pattern]03-04. static, dynamic late data integrator
고정된 lookback window를 정의하여 매 실행마다 현재 파티션 + 과거 N일치를 함께 처리
1347 words
|
7 minutes
[DE Design Pattern]03-04. Static, Dynamic Late Data Integrator
핵심: CASE문이 첫 번째로 실패한 조건을 status_flag에 기록
807 words
|
4 minutes