[DE Design Pattern]04-2. Overwriting 패턴들
2025-02-28
메타데이터 한계 — 여러 파이프라인에서 이 패턴을 쓰면 한계에 빠르게 도달. freezing 스텝을 따로 두어서, 변경이 없는 오래된 주간 테이블을 월간/연간 테이블로 병합 가능
1727 words
|
9 minutes
[DE Design Pattern]04-3. 증분데이터의 멱등성 보장
2025-02-28
불변 키 필수 — 데이터 프로바이더가 row를 고유하게 식별할 수 있는 불변 속성을 제공해야함.
I/O 비용 — Fast Metadata Cleaner와 달리 데이터 블록 수준에서 동작. 현대 DB와 OTF는 데이터를 활용해 관련 파일만 스캔하도록 최적화가능
2341 words
|
12 minutes
[DE Design Pattern]04-2. DB수준에서의 멱등성 보장
2025-02-28
키 기반 저장소뿐 아니라 파일이나 파티션 이름에도 같은 원칙이 적용됩니다.
2693 words
|
13 minutes
[DE Design Pattern]04-5. Immutable Dataset과 Proxy 패턴
2025-02-28
방식 1: 뷰 기반 (View-based)
1086 words
|
5 minutes
[DE Design Pattern]03-06. Static, Dynamic Late Data Integrator
2025-02-27
프레임워크 기반: Spark Structured Streaming, Flink이 체크포인트 위치만 설정하면 자동 관리합니다.
1149 words
|
6 minutes
[DE Design Pattern]03-02. Window Deduplication 패턴
2025-02-24
분산 시스템에서 exactly-once delivery는 매우 어렵습니다. 대부분 at-least-once 환경에서 동작하므로 중복 레코드가 발생합니다. 비즈니스 로직이 각 레코드를 한 번만 처리해야 한다면 중복 제거가 필요합니다.
1606 words
|
8 minutes
[de design pattern]03-04. static, dynamic late data integrator
2025-02-24
고정된 lookback window를 정의하여 매 실행마다 현재 파티션 + 과거 N일치를 함께 처리
1290 words
|
6 minutes
[DE Design Pattern]03-04. Static, Dynamic Late Data Integrator
2025-02-24
핵심: CASE문이 첫 번째로 실패한 조건을 status_flag에 기록
762 words
|
4 minutes