[spark]Spark Shuffling 최적화
2026-03-02
분산 처리 환경에서 데이터를 연산하기 위해 노드 간에 데이터를 재분배하는 과정. 정확히는 분산노드간 특정 키를 기준으로 클러스터 전체의 데이터를 조합하는것
1312 words
|
7 minutes
[spark]MPP와 데이터레이크 하우스 관점에서의 Spark
2026-03-02
어떤 아키텍처를 선택할지는 결국 **“병목이 어디에 있는가?”**에 기반함
1264 words
|
6 minutes
[Iceberg]Open Table format 개요
2026-03-02
메타데이터 조작 방식은 필연적으로 **‘쓰레기 파일 생성’**과 **‘파티션 단편화’**라는 관리 비용을 발생시킴.
1820 words
|
9 minutes
Yarn에서의 파일 지역성 문제
2026-02-10
Airflow에서 SparkSubmitOperator를 통해 실행된 PySpark 애플리케이션이 로컬 개발 환경에서는 잘 동작하지만, YARN 클러스터 환경에서는 configparser.NoSectionError를 발생시키며 실패하는 현상을 다룸
1157 words
|
6 minutes
[clickHouse]Final keyword의 의미
2026-02-09
ClickHouse에서 FINAL 키워드는 MergeTree 계열 테이블에서 아직 물리적으로 Merge되지 않은 중복/삭제/버전 데이터를, 쿼리 시점에 강제로 정리해서 읽는 키워드
1081 words
|
5 minutes
[Agent]AI Agent 디자인패턴: 우선순위 전략패턴 및 Agent Frameworks 선택
2026-01-19
우선 순위 판단을 위한 주요 기준
1824 words
|
9 minutes
[Agent]AI Agent 디자인패턴: 리소스 핸들링과 가드레일 패턴들
2026-01-12
핵심은 가용자원을 바탕으로 정확도(Accuracy)와 비용/속도(Cost/Speed) 사이의 균형을 맞추는 것이다.
2831 words
|
14 minutes