[DE Design Pattern]02-3. Change Data Capture

1128 words

6 minutes

[DE Design Pattern]02-3. Change Data Capture

2025-01-31

2026-02-23

Data Engineering

design_pattern

/

cdc

03. Change Data Capture#

데이터베이스의 내부 커밋 로그(WAL)를 직접 읽어서 모든 변경사항을 실시간으로 캡처하는 패턴.

구분	Incremental Loader	CDC
Latency	분~시간 (배치 스케줄링 오버헤드)	초 단위 (커밋 로그 스트리밍)
Hard Delete	감지 불가 (Soft Delete 필요)	커밋 로그에 DELETE 연산 기록됨
데이터 접근 방식	고수준 SQL 쿼리	저수준 커밋 로그 직접 읽기

동작 원리#

데이터베이스는 모든 쓰기 연산(INSERT, UPDATE, DELETE)을 커밋 로그(append-only 구조) 에 먼저 기록
CDC client에서 이 로그를 스트리밍으로 읽어서 변경분을 외부 시스템으로 전송

1
[PostgreSQL WAL]
2
LSN 100: INSERT INTO visits (id=1, user='A')
3
LSN 101: UPDATE visits SET user='B' WHERE id=1
4
LSN 102: DELETE FROM visits WHERE id=1
5

6
       ↓ CDC Consumer (Debezium)
7

8
[Kafka Topic: dedp.schema.visits]
9
{op: "c", id: 1, after: {user: "A"}}     ← create
10
{op: "u", id: 1, before: {user: "A"}, after: {user: "B"}}  ← update
11
{op: "d", id: 1, before: {user: "B"}}    ← delete

Incremental Loader는 단순히 행의 최신 상태만 가져오지만, CDC는 변경의 전체 이력을 제공함

Debezium 설정#

Kafka Connect 기반 declarative config

1
import requests
2

3
debezium_config = {
4
    "name": "visits-connector",
5
    "config": {
6
        "connector.class": "io.debezium.connector.postgresql.PostgresConnector",
7
        "database.hostname": "postgres",
8
        "database.port": "5432",
9
        "database.user": "postgres",
10
        "database.password": "postgres",
11
        "database.dbname": "postgres",
12
        "database.server.name": "dedp",
13
        "schema.include.list": "dedp_schema",
14
        "topic.prefix": "dedp",
15
        # 아래 설정이 PostgreSQL WAL 연동의 핵심
16
        "plugin.name": "pgoutput",  # logical replication 플러그인
17
    }
18
}
19

20
# Kafka Connect REST API로 커넥터 등록
21
response = requests.post(
22
    "http://kafka-connect:8083/connectors",
23
    json=debezium_config,
24
    headers={"Content-Type": "application/json"}
25
)
26
# 결과: dedp_schema.visits 테이블 → dedp.dedp_schema.visits 토픽으로 CDC 스트리밍

Data at Rest → Data in Motion#

정적 데이터(data at rest)가 동적 데이터(data in motion)로 전환됨
정적 table join과 동적 streaming join사이의 차이 발생

1
from pyspark.sql import functions as F
2

3
orders_stream = spark.readStream.format("kafka").load()
4
users_stream = spark.readStream.format("kafka").load()
5

6
# 스트리밍 JOIN에서는 watermark로 "얼마나 기다릴지" 정의해야 함
7
orders_with_watermark = orders_stream.withWatermark("event_time", "10 minutes")
8
users_with_watermark = users_stream.withWatermark("event_time", "10 minutes")
9

10
joined = orders_with_watermark.join(
11
    users_with_watermark,
12
    on="user_id",
13
    how="inner"  # 한쪽 스트림이 늦으면 매칭이 지연될 수 있음
14
)

Delta Lake Change Data Feed (CDF)#

외부 CDC 도구 없이, Delta Lake 자체적으로 변경 피드를 제공

1
from pyspark.sql import SparkSession
2
from delta.tables import DeltaTable
3

4
spark = (SparkSession.builder
5
    .config("spark.databricks.delta.properties.defaults.enableChangeDataFeed", "true")
6
    .getOrCreate()
7
)
8

9
# 방법 1: 글로벌 설정 (위의 config)
10
# 방법 2: 테이블 레벨 설정
11
spark.sql("""
12
    CREATE TABLE events (
13
        visit_id STRING, event_time TIMESTAMP, user_id STRING
14
    )
15
    TBLPROPERTIES (delta.enableChangeDataFeed = true)
16
""")
17

18
# CDF 스트리밍 읽기
19
cdf_stream = (
20
    spark.readStream.format("delta")
21
    .option("readChangeFeed", "true")
22
    .option("startingVersion", 0)        # 어떤 버전부터 읽을지
23
    .option("maxFilesPerTrigger", 4)     # 처리량 제어
24
    .table("events")
25
)
26

27
# CDF 출력에는 추가 메타 컬럼이 포함됨:
28
# _change_type: insert | update_preimage | update_postimage | delete
29
# _commit_version: 변경이 발생한 Delta 커밋 버전
30
# _commit_timestamp: 변경 시간
31

32
query = cdf_stream.writeStream.format("console").start()

1
| visit_id | _change_type      | _commit_version |
2
|----------|-------------------|-----------------|
3
| v001     | update_preimage   | 3               |  ← 변경 전
4
| v001     | update_postimage  | 3               |  ← 변경 후

Debezium CDC와의 차이는, CDF는 같은 Delta Lake 생태계 안에서 작동하므로 별도 인프라(Kafka Connect 등)가 불필요하다는 점입니다. 다만 소스가 Delta Lake 테이블이어야 한다는 제약이 있습니다.

CDC의 데이터 스코프 주의점#

초기 스냅샷은 Full Load나 Incremental Load로 가져온 뒤 이후 변경분을 CDC로 처리하는 하이브리드 접근이 필요
이는 cdc가 시작 시점이후의 변경분만 처리하기 때문

1
[시간축]
2
────────────────────────────────────────────
3
     기존 데이터           CDC 시작 시점 이후
4
  ←── Full Load ──→  ←── CDC 스트리밍 ──→

Concept

Change Data Capture (CDC) : 데이터베이스 커밋 로그를 직접 읽어 모든 변경(INSERT/UPDATE/DELETE)을 실시간 캡처하는 패턴
Commit Log (WAL) : 데이터베이스가 모든 쓰기 연산을 순차적으로 기록하는 append-only 구조. CDC의 데이터 소스
Debezium : Kafka Connect 기반의 오픈소스 CDC 프레임워크. 다양한 RDBMS/NoSQL 지원
Kafka Connect : 외부 시스템과 Kafka 간 데이터를 연결하는 프레임워크. Debezium의 실행 환경
CDC Payload : 연산 유형(op), 변경 전(before), 변경 후(after) 값을 포함하는 CDC 메시지 구조
Data at Rest vs Data in Motion : 정적 저장 데이터 vs 스트리밍 동적 데이터. CDC를 통해 전자가 후자로 전환되며, JOIN 등의 연산 의미론이 달라짐
Delta Lake CDF (Change Data Feed) : Delta Lake 내장 CDC 기능. _change_type 컬럼으로 insert/update_preimage/update_postimage/delete 구분
update_preimage / update_postimage : CDF에서 UPDATE 발생 시 변경 전/후 상태를 각각 별도 행으로 제공
Logical Replication (pgoutput) : PostgreSQL의 논리 복제 플러그인. Debezium이 WAL을 읽기 위해 필요
maxFilesPerTrigger / maxBytesPerTrigger : CDF 스트리밍 읽기의 처리량을 제어하는 옵션