Datamind - Personal Blog

[Agent]에이전트 엔지니어링: Improvement Loop

2026-03-21

Machine Learning

agent

Concept

5857 words

|

29 minutes

[spark]MPP와 데이터레이크 하우스 관점에서의 Spark

2026-03-02

Data Engineering

spark

/

mpp

/

data_lakehouse

어떤 아키텍처를 선택할지는 결국 **“병목이 어디에 있는가?”**에 기반함

1264 words

|

6 minutes

[Iceberg]Open Table format 개요

2026-03-02

Data Engineering

iceberg

/

opentableformat

메타데이터 조작 방식은 필연적으로 **‘쓰레기 파일 생성’**과 **‘파티션 단편화’**라는 관리 비용을 발생시킴.

1820 words

|

9 minutes

[spark]Spark Shuffling 최적화

2026-03-02

Data Engineering

spark

/

shuffle

분산 처리 환경에서 데이터를 연산하기 위해 노드 간에 데이터를 재분배하는 과정. 정확히는 분산노드간 특정 키를 기준으로 클러스터 전체의 데이터를 조합하는것

1334 words

|

7 minutes

[DE Design Pattern]03-06. Static, Dynamic Late Data Integrator

2026-02-27

Data Engineering

design_pattern

/

late-data

프레임워크 기반: Spark Structured Streaming, Flink이 체크포인트 위치만 설정하면 자동 관리합니다.

1206 words

|

6 minutes

[DE Design Pattern]03-02. Window Deduplication 패턴

2026-02-24

Data Engineering

design_pattern

/

window-deduplication

분산 시스템에서 exactly-once delivery는 매우 어렵습니다. 대부분 at-least-once 환경에서 동작하므로 중복 레코드가 발생합니다. 비즈니스 로직이 각 레코드를 한 번만 처리해야 한다면 중복 제거가 필요합니다.

1651 words

|

8 minutes

[de design pattern]03-04. static, dynamic late data integrator

2026-02-24

Data Engineering

design_pattern

/

late-data

고정된 lookback window를 정의하여 매 실행마다 현재 파티션 + 과거 N일치를 함께 처리

1347 words

|

7 minutes

[DE Design Pattern]03-04. Static, Dynamic Late Data Integrator

2026-02-24

Data Engineering

design_pattern

/

filter_interceptor

핵심: CASE문이 첫 번째로 실패한 조건을 status_flag에 기록

807 words

|

4 minutes