[de design pattern]03. Clickhouse에서 지연데이터 handling하기
2026-02-24
파이프라인 레이어(컴퓨팅)에서 무거운 병합 연산을 직접 수행하는 전통적인 방식.
1549 words
|
8 minutes
Yarn에서의 파일 지역성 문제
2026-02-10
Airflow에서 SparkSubmitOperator를 통해 실행된 PySpark 애플리케이션이 로컬 개발 환경에서는 잘 동작하지만, YARN 클러스터 환경에서는 configparser.NoSectionError를 발생시키며 실패하는 현상을 다룸
1178 words
|
6 minutes
[clickHouse]Final keyword의 의미
2026-02-09
ClickHouse에서 FINAL 키워드는 MergeTree 계열 테이블에서 아직 물리적으로 Merge되지 않은 중복/삭제/버전 데이터를, 쿼리 시점에 강제로 정리해서 읽는 키워드
1095 words
|
5 minutes
[DE Design Pattern]02-3. Change Data Capture
2026-01-31
Incremental Loader는 단순히 행의 최신 상태만 가져오지만, CDC는 변경의 전체 이력을 제공함
1172 words
|
6 minutes
[DE Design Pattern]02-4. Data Replication
2026-01-31
데이터를 한 위치에서 다른 위치로 복제하는 패턴
1412 words
|
7 minutes
[DE Design Pattern]02-5. Data Compaction
2026-01-31
Compaction은 이 문제를 다음과 같이 해결합니다.
1536 words
|
8 minutes