[Agent]에이전트 엔지니어링: Improvement Loop

01. Overview#

멀티에이전트 시스템에서 실패는 버그가 아니라 필연임.
아래 사이클은 강화학습의 Agent-Environment 상호작용과 동일한 구조를 따름

1
Agent → Action → Environment → Reward + New Observation → Agent (반복)

3단계 Improvement Loop#

1
┌─────────────┐     ┌─────────────────┐     ┌──────────────────┐
2
│  Feedback    │────▶│ Experimentation │────▶│   Continuous     │
3
│  Pipelines   │     │                 │     │   Learning       │
4
│              │     │ Shadow Deploy   │     │                  │
5
│ 관찰/진단/   │     │ A/B Testing     │     │ In-Context       │
6
│ 우선순위화   │◀────│ Bayesian Bandit │◀────│ Offline Retrain  │
7
└─────────────┘     └─────────────────┘     └──────────────────┘
8
     ▲                                              │
9
     └──────────────────────────────────────────────┘

단계	역할	핵심 질문
Feedback Pipelines	관찰 · 진단 · 우선순위화	무엇이, 왜 실패했는가?
Experimentation	통제된 환경에서 변경 검증	이 개선이 실제로 효과가 있는가?
Continuous Learning	시스템에 개선 내재화	어떻게 지속적으로 반영할 것인가?

Improvement Loop 시뮬레이션#

1
from dataclasses import dataclass, field
2
from enum import Enum
3

4
class Phase(Enum):
5
    FEEDBACK = "feedback"
6
    EXPERIMENT = "experiment"
7
    LEARN = "learn"
8

9
@dataclass
10
class ImprovementLoop:
11
    """멀티에이전트 시스템의 피드백 기반 개선 사이클"""
12
    cycle: int = 0
13
    insights: list[str] = field(default_factory=list)
14
    validated: list[str] = field(default_factory=list)
15

16
    def feedback(self, failures: list[str]) -> list[str]:
17
        """1단계: 실패 관찰 → 패턴 클러스터링 → 우선순위화"""
18
        # 실제로는 자동 RCA + HITL 리뷰가 여기서 수행됨
19
        prioritized = sorted(failures, key=lambda f: failures.count(f), reverse=True)
20
        self.insights = list(dict.fromkeys(prioritized))  # 중복 제거, 빈도순 유지
21
        return self.insights
22

23
    def experiment(self, insight: str, improved: bool) -> bool:
24
        """2단계: Shadow deploy / A/B test로 개선안 검증"""
25
        if improved:
26
            self.validated.append(insight)
27
        return improved
28

29
    def learn(self, insight: str, method: str = "in_context") -> str:
30
        """3단계: 검증된 개선을 시스템에 내재화"""
31
        self.cycle += 1
32
        return f"[Cycle {self.cycle}] '{insight}' applied via {method}"
33

34
# --- 시뮬레이션 ---
35
loop = ImprovementLoop()
36

37
# 1) Feedback: 반복 실패 패턴 수집
38
raw_failures = [
39
    "tool_selection_error", "prompt_ambiguity",
40
    "tool_selection_error", "tool_selection_error",  # 빈도 높음
41
    "timeout", "prompt_ambiguity",
42
]
43
insights = loop.feedback(raw_failures)
44
print("우선순위화된 인사이트:", insights)
45
# → ['tool_selection_error', 'prompt_ambiguity', 'timeout']
46

47
# 2) Experiment: 가장 빈도 높은 이슈 검증
48
top_issue = insights[0]
49
is_valid = loop.experiment(top_issue, improved=True)
50
print(f"'{top_issue}' 개선 검증: {is_valid}")
51

52
# 3) Learn: 시스템 반영
53
result = loop.learn(top_issue, method="prompt_refinement")
54
print(result)
55
# → [Cycle 1] 'tool_selection_error' applied via prompt_refinement

Key Takeaways#

기술 + 조직 문제: 엔지니어링, 데이터 사이언스, PM, UX 간 정렬 필요. 실패 자체도 학습의 input으로 보는 문화가 전제조건
순환 구조: 세 단계는 선형이 아니라 사이클. 학습 결과가 다시 피드백 파이프라인의 입력이 되는 구조
Fine-tuning만이 답이 아님: 프롬프트 조정, 툴 리팩토링, in-context learning 등 비파라메트릭 접근이 선행되어야함

Concept

Improvement Loop : 피드백 → 실험 → 학습의 반복 사이클. 에이전트 시스템이 실패로부터 자기 개선하는 구조
Feedback Pipeline : 시스템 인터랙션 데이터를 수집·분석·우선순위화하여 액셔너블 인사이트를 도출하는 자동화 파이프라인
Experimentation Framework : Shadow deploy, A/B test 등을 통해 개선안을 프로덕션 투입 전 통제된 환경에서 검증하는 체계
Continuous Learning : In-context 조정(즉시) 또는 Offline retraining(주기적)으로 개선을 시스템에 내재화하는 메커니즘
Reinforcement Learning 비유 : Agent가 Environment와 상호작용하며 Reward를 받아 행동을 개선하는 구조 — Improvement Loop의 개념적 기반

2. Feedback Pipelines#

멀티에이전트 시스템은 매일 수천~수만 건의 인터랙션을 처리함
사람이 로그를 하나하나 뒤질 수 없으므로, 자동화된 파이프라인이 패턴을 탐지하고 클러스터링하여 액셔너블 인사이트로 변환하는 루프가 필요

자동 프롬프트 최적화 루프 (APO)#

1
Initial Prompt → Target Model → Output
2
                                   ↓
3
                            Evaluation Model → Score
4
                                   ↓
5
                          Optimization Model → New Prompt (반복)

이 루프의 핵심은 사람이 프롬프트를 수동으로 튜닝하는 대신, 데이터셋 기반 스코어링으로 자동 개선한다는 것

대표 프레임워크 3가지:

프레임워크	핵심 접근	특징
DSPy	LM 파이프라인을 모듈러 프로그램으로 선언, 옵티마이저가 프롬프트/few-shot 자동 생성	Signature → Module → Optimizer 구조
Microsoft Trace	그래디언트 없이 일반 피드백(점수, 자연어 비평, 쌍별 선호)으로 최적화	Black-box 시스템에 적합
APO	평가 모델의 점수를 기반으로 최적화 모델이 새 프롬프트 제안	가장 범용적 루프 구조

DSPy 스타일 자동 프롬프트 최적화 시뮬레이션#

1
from dataclasses import dataclass
2

3
@dataclass
4
class PromptCandidate:
5
    text: str
6
    score: float = 0.0
7

8
def evaluate_prompt(prompt: str, test_cases: list[dict]) -> float:
9
    """평가 모델 시뮬레이션: 프롬프트가 테스트 케이스에 얼마나 부합하는지 점수화"""
10
    score = 0.0
11
    for case in test_cases:
12
        # 실제로는 LLM 호출 → 출력 → 메트릭 비교
13
        if case["keyword"] in prompt:
14
            score += 1.0
15
    return score / len(test_cases)
16

17
def optimize_prompt(current: str, feedback: str) -> str:
18
    """최적화 모델 시뮬레이션: 피드백 기반으로 프롬프트 수정 제안"""
19
    # 실제로는 LLM이 피드백을 보고 새 프롬프트를 생성
20
    return f"{current}\nAdditional guidance: {feedback}"
21

22
# --- APO 루프 ---
23
test_cases = [
24
    {"input": "Suspicious IP login", "expected": "lookup threat intel", "keyword": "threat intel"},
25
    {"input": "Malware hash detected", "expected": "query logs", "keyword": "logs"},
26
    {"input": "Unusual outbound traffic", "expected": "triage incident", "keyword": "triage"},
27
]
28

29
prompt = "You are a SOC analyst. Investigate security alerts."
30
history: list[PromptCandidate] = []
31

32
for iteration in range(3):
33
    score = evaluate_prompt(prompt, test_cases)
34
    history.append(PromptCandidate(text=prompt, score=score))
35
    print(f"[Iter {iteration}] Score: {score:.2f}")
36

37
    if score >= 1.0:
38
        break
39

40
    # 점수가 낮은 케이스에서 피드백 생성
41
    missing = [c["keyword"] for c in test_cases if c["keyword"] not in prompt]
42
    feedback = f"Always consider: {', '.join(missing)}"
43
    prompt = optimize_prompt(prompt, feedback)
44

45
print(f"\n최종 프롬프트:\n{prompt}")
46
print(f"최종 점수: {history[-1].score:.2f} → {evaluate_prompt(prompt, test_cases):.2f}")

자동 이슈 탐지와 Root Cause Analysis (RCA)#

수동 디버깅은 스케일하지 않는다. 자동 탐지는 다음 패턴을 감시

반복 실패: 특정 tool/skill에서 반복적으로 에러 발생
에러율 스파이크: 갑작스러운 오류 증가
사용자 만족도 이상: engagement 메트릭 하락
버전 간 행동 차이: 배포 환경별 divergent behavior

이슈가 탐지될 경우 RCA가 **“무엇이”가 아니라 “왜”**를 추적

1
Workflow Tracing → Fault Localization → Pattern Recognition → Impact Assessment
2
(결정 체인 재구성)  (문제 컴포넌트 격리)  (일회성 vs 반복 패턴)    (빈도 × 심각도)

자동 이슈 탐지 + RCA 파이프라인#

1
from collections import Counter
2
from dataclasses import dataclass
3
from enum import Enum
4

5
class Severity(Enum):
6
    LOW = 1
7
    MEDIUM = 2
8
    HIGH = 3
9

10
@dataclass
11
class FailureEvent:
12
    component: str      # 어떤 tool/skill에서 발생
13
    error_type: str     # 에러 분류
14
    trace_id: str       # 워크플로우 추적용
15

16
@dataclass
17
class RCAResult:
18
    component: str
19
    frequency: int
20
    severity: Severity
21
    root_cause: str
22
    priority_score: float  # frequency × severity
23

24
class AutomatedFeedbackPipeline:
25
    def __init__(self):
26
        self.events: list[FailureEvent] = []
27

28
    def ingest(self, events: list[FailureEvent]):
29
        self.events.extend(events)
30

31
    def detect_patterns(self) -> dict[str, int]:
32
        """규칙 기반 + 통계적 클러스터링으로 반복 패턴 탐지"""
33
        return Counter(
34
            (e.component, e.error_type) for e in self.events
35
        )
36

37
    def run_rca(self, severity_map: dict[str, Severity]) -> list[RCAResult]:
38
        """탐지된 패턴에 대해 RCA 수행 → 우선순위화"""
39
        patterns = self.detect_patterns()
40
        results = []
41
        for (component, error_type), freq in patterns.items():
42
            sev = severity_map.get(error_type, Severity.LOW)
43
            results.append(RCAResult(
44
                component=component,
45
                frequency=freq,
46
                severity=sev,
47
                root_cause=f"{component}에서 {error_type} 반복 발생",
48
                priority_score=freq * sev.value,
49
            ))
50
        # 우선순위 높은 순 정렬
51
        return sorted(results, key=lambda r: r.priority_score, reverse=True)
52

53
# --- 시뮬레이션 ---
54
pipeline = AutomatedFeedbackPipeline()
55

56
# SOC 에이전트의 실패 이벤트 수집
57
pipeline.ingest([
58
    FailureEvent("query_logs", "invalid_syntax", "trace-001"),
59
    FailureEvent("query_logs", "invalid_syntax", "trace-002"),
60
    FailureEvent("query_logs", "invalid_syntax", "trace-003"),
61
    FailureEvent("lookup_threat_intel", "timeout", "trace-004"),
62
    FailureEvent("triage_incident", "wrong_classification", "trace-005"),
63
    FailureEvent("triage_incident", "wrong_classification", "trace-006"),
64
])
65

66
severity_map = {
67
    "invalid_syntax": Severity.MEDIUM,
68
    "timeout": Severity.LOW,
69
    "wrong_classification": Severity.HIGH,
70
}
71

72
rca_results = pipeline.run_rca(severity_map)
73
for r in rca_results:
74
    print(f"[Priority {r.priority_score:.0f}] {r.root_cause} "
75
          f"(빈도:{r.frequency}, 심각도:{r.severity.name})")

출력:

1
[Priority 6] triage_incident에서 wrong_classification 반복 발생 (빈도:2, 심각도:HIGH)
2
[Priority 6] query_logs에서 invalid_syntax 반복 발생 (빈도:3, 심각도:MEDIUM)
3
[Priority 1] lookup_threat_intel에서 timeout 반복 발생 (빈도:1, 심각도:LOW)

Key Takeaway#

자동 파이프라인의 역할: 패턴 탐지 + 클러스터링 + 인사이트 서피싱. 사람이 로그를 직접 보는 것을 대체
APO 루프: 프롬프트 → 모델 출력 → 평가 → 점수 → 최적화 모델 → 새 프롬프트의 반복. DSPy가 이 구조의 대표 구현체.
RCA는 “왜”를 묻는다: Workflow tracing → Fault localization → Pattern recognition → Impact assessment 순서로 진행.
자동화의 한계: 맥락적 뉘앙스, 전략적 우선순위 판단은 사람이 해야 한다. 자동 파이프라인은 대체제가 아니라 증폭기(amplifier).

Concept

DSPy : Stanford NLP 개발. LM 파이프라인을 선언적 프로그램으로 취급, Signature(입출력 명세) → Module(CoT, ReAct) → Optimizer(BootstrapFewshot, MIPROv2)로 자동 프롬프트 최적화
DSPy Signature/Module/Optimizer 구조 : Signature가 타입 시스템 역할, Module이 추론 전략, Optimizer가 컴파일러 역할을 하는 3계층 아키텍처
Microsoft Trace : 그래디언트 없이 점수/자연어 비평/쌍별 선호 등 일반 피드백으로 AI 시스템을 최적화하는 프레임워크. Black-box 시스템에 특히 유용
APO (Automatic Prompt Optimization) : 평가 모델의 점수를 기반으로 최적화 모델이 새 프롬프트를 반복 제안하는 루프 구조
Root Cause Analysis (RCA) : “무엇이 실패했나”가 아니라 “왜 실패했나”를 추적하는 체계적 분석. Workflow tracing → Fault localization → Pattern recognition → Impact assessment
Drift : 사용자 쿼리 패턴, 외부 데이터, 위협 벡터 등이 시간에 따라 변화하면서 기존 프롬프트/모델의 성능이 저하되는 현상
Fault Localization : RCA의 핵심 단계. 실패의 원인이 된 정확한 컴포넌트(프롬프트, 스킬 선택, 툴 파라미터 등)를 격리하는 과정

3. Human-in-the-Loop (HITL) Review#

자동화 파이프라인은 패턴 탐지에는 강하지만, 맥락적 판단에는 약하다.
모호한 사용자 의도, 윤리적 뉘앙스, 상충하는 목표, 처음 보는 엣지 케이스는 사람의 직관과 도메인 전문성이 필요.
HITL은 자동화의 안전망”이 아닌 일종의 구조화된 에스컬레이션 프로세스

HITL 워크플로우#

1
Input Data → Agent → Generated Output Candidates
2
                              ↓
3
                      Human Reviewer ←── Manual Feedback
4
                              ↓
5
                    Human-Approved Output → End Users
6
                              ↓
7
                      System Feedback (루프 백)

핵심은 모든 케이스를 사람이 보는 것이 아니라, 에스컬레이션 기준에 따라 필터링된 케이스만 사람에게 라우팅하는 것

에스컬레이션 기준 설계: 두 축#

축	측정 방법	예시
불확실성 (Low Certainty)	모델 self-assessed confidence score, 엔트로피, 앙상블 분산	confidence < 0.7이면 에스컬레이션
영향도 (High Consequence)	도메인별 심각도, 영향 자산의 중요도	데이터 유출 가능성, admin 계정 관련

최종 에스컬레이션 결정은 두 축의 조합: risk_score = uncertainty × consequence

에스컬레이션 라우터#

1
from dataclasses import dataclass
2
from enum import Enum
3

4
class Decision(Enum):
5
    AUTO_APPROVE = "auto_approve"
6
    ESCALATE = "escalate"
7

8
@dataclass
9
class AgentOutput:
10
    incident_id: str
11
    response: str
12
    confidence: float          # 0~1, 모델 자체 평가
13
    severity: str              # "low", "medium", "high", "critical"
14
    affects_critical_asset: bool
15

16
SEVERITY_WEIGHT = {"low": 1, "medium": 2, "high": 3, "critical": 4}
17

18
def compute_risk_score(output: AgentOutput) -> float:
19
    """uncertainty × consequence 기반 리스크 스코어"""
20
    uncertainty = 1.0 - output.confidence
21
    consequence = SEVERITY_WEIGHT.get(output.severity, 1)
22
    if output.affects_critical_asset:
23
        consequence *= 1.5
24
    return uncertainty * consequence
25

26
def escalation_router(output: AgentOutput, threshold: float = 1.0) -> Decision:
27
    """리스크 스코어 기반 에스컬레이션 판단"""
28
    score = compute_risk_score(output)
29
    decision = Decision.ESCALATE if score > threshold else Decision.AUTO_APPROVE
30
    return decision
31

32
# --- 시뮬레이션 ---
33
outputs = [
34
    AgentOutput("INC-001", "False positive from VPN",
35
                confidence=0.92, severity="low", affects_critical_asset=False),
36
    AgentOutput("INC-002", "Possible data exfiltration",
37
                confidence=0.55, severity="critical", affects_critical_asset=True),
38
    AgentOutput("INC-003", "Suspicious login attempt",
39
                confidence=0.75, severity="medium", affects_critical_asset=False),
40
    AgentOutput("INC-004", "Malware hash detected on admin server",
41
                confidence=0.60, severity="high", affects_critical_asset=True),
42
]
43

44
for o in outputs:
45
    score = compute_risk_score(o)
46
    decision = escalation_router(o)
47
    print(f"[{o.incident_id}] risk={score:.2f} → {decision.value}"
48
          f"  (conf={o.confidence}, sev={o.severity})")

출력:

1
[INC-001] risk=0.08 → auto_approve  (conf=0.92, sev=low)
2
[INC-002] risk=2.70 → escalate      (conf=0.55, sev=critical)
3
[INC-003] risk=0.50 → auto_approve  (conf=0.75, sev=medium)
4
[INC-004] risk=1.80 → escalate      (conf=0.60, sev=high)

다학제 리뷰 프로세스#

에스컬레이션된 케이스는 단일 엔지니어가 아니라 다학제 팀이 분석한다:

역할	기여
엔지니어	Trace 분석, 기술적 fault localization
데이터 사이언티스트	패턴/엣지 케이스 인식, 통계적 분석
PM	사용자 니즈와의 정렬 여부 판단
UX 리서처	자동 메트릭이 놓치는 사용자 마찰 포인트 발견

리뷰 프로세스 4단계:

1
Contextual Analysis → Trace Inspection → Impact Assessment → Resolution Design
2
(통제 환경에서 재현)   (로그/트레이스 검토)  (범위·심각도 평가)    (수정안 설계)

리뷰 기록 및 지식 베이스 축적#

1
from dataclasses import dataclass, field
2
from datetime import datetime
3

4
@dataclass
5
class HITLReview:
6
    incident_id: str
7
    reviewer: str
8
    role: str                          # "engineer", "data_scientist", "pm", "ux"
9
    finding: str
10
    resolution: str
11
    reviewed_at: datetime = field(default_factory=datetime.now)
12

13
@dataclass
14
class HITLKnowledgeBase:
15
    """리뷰 결과를 축적하여 조직 학습에 활용"""
16
    reviews: list[HITLReview] = field(default_factory=list)
17

18
    def add_review(self, review: HITLReview):
19
        self.reviews.append(review)
20

21
    def find_similar(self, keyword: str) -> list[HITLReview]:
22
        """과거 유사 케이스 검색 → 반복 문제 식별"""
23
        return [r for r in self.reviews if keyword in r.finding]
24

25
    def recurrence_report(self) -> dict[str, int]:
26
        """동일 resolution이 반복되면 시스템적 문제 시그널"""
27
        from collections import Counter
28
        return Counter(r.resolution for r in self.reviews)
29

30
# --- 시뮬레이션 ---
31
kb = HITLKnowledgeBase()
32

33
kb.add_review(HITLReview(
34
    "INC-002", "Alice", "engineer",
35
    finding="triage_incident가 credential stuffing을 IP brute-force로 오분류",
36
    resolution="프롬프트에 credential stuffing 예시 추가",
37
))
38
kb.add_review(HITLReview(
39
    "INC-004", "Bob", "data_scientist",
40
    finding="isolate_host가 critical ops 서버를 확인 없이 격리",
41
    resolution="isolate_host에 confirmation step 추가",
42
))
43
kb.add_review(HITLReview(
44
    "INC-007", "Carol", "engineer",
45
    finding="새로운 공격 벡터(API key 탈취)를 기존 프롬프트가 커버 못함",
46
    resolution="프롬프트에 credential stuffing 예시 추가",  # 같은 resolution 반복!
47
))
48

49
# 반복 resolution 확인 → 시스템적 문제 시그널
50
report = kb.recurrence_report()
51
for resolution, count in report.most_common():
52
    flag = "시스템적 문제!" if count > 1 else ""
53
    print(f"[{count}회] {resolution}{flag}")

출력:

1
[2회] 프롬프트에 credential stuffing 예시 추가 시스템적 문제!
2
[1회] isolate_host에 confirmation step 추가

에스컬레이션 비율 최적화#

핵심 균형: 너무 많이 에스컬레이션하면 human fatigue, 너무 적으면 위험한 케이스를 놓친다.

실무 가이드라인: 전체 케이스의 ~10% 이하가 에스컬레이션되도록 threshold를 튜닝.
DSPy 같은 프레임워크로 과거 데이터 기반 시뮬레이션으로 최적 threshold를 찾을 수 있다.

핵심 Takeaway#

HITL은 안전망이 아니라 구조화된 에스컬레이션: 모든 케이스가 아니라 uncertainty × consequence > threshold인 케이스만 라우팅
불확실성 측정 방법: self-assessed confidence, 엔트로피, 앙상블 분산(3~5회 추론 후 출력 divergence > 20%), 외부 critic 모델
리뷰 결과는 지식 베이스로 축적: 동일 resolution이 반복되면 시스템적 문제의 시그널. 이 데이터가 다시 피드백 파이프라인의 입력이 된다
~10% 에스컬레이션 비율 목표: human fatigue와 위험 누락 사이의 균형점

Concept

Human-in-the-Loop (HITL) : 자동화 파이프라인이 처리하기 어려운 모호하거나 고위험 케이스를 사람에게 라우팅하는 구조화된 에스컬레이션 프로세스
Escalation Router : uncertainty × consequence 기반 리스크 스코어로 에스컬레이션 여부를 판단하는 라우팅 로직
Confidence Score : 모델이 자체 출력에 대해 평가하는 확신도 (0~1). 프롬프트에 지시하여 출력 끝에 포함시킬 수 있음
Ensemble Variance : 동일 입력에 대해 3~5회 추론 후 출력 간 divergence를 측정하여 불확실성을 정량화하는 방법
Risk Score : (1 - confidence) × severity_weight로 계산. 불확실하면서 영향이 큰 케이스를 우선 에스컬레이션
Multidisciplinary Review : 엔지니어, 데이터 사이언티스트, PM, UX가 각자의 관점에서 에스컬레이션 케이스를 분석하는 다학제 리뷰
Organizational Learning : HITL 리뷰 결과를 지식 베이스로 축적하여 유사 문제 재발 방지, 신규 팀원 온보딩, 시스템 설계 개선에 활용
Calibration (모델 보정) : 모델이 “confidence 0.8”이라고 말할 때 실제로 80% 확률로 맞는지 검증하는 기법. 잘 보정되지 않은 모델의 confidence score는 에스컬레이션 기준으로 신뢰하기 어렵다

피드백 파이프라인과 HITL 리뷰가 **“무엇이, 왜 문제인지”**를 밝혀냈다면, 이제 실제로 고칠 차례.
에이전트 시스템에서 가장 직접적이고 효과가 큰 두 레버는 프롬프트(모델에 주는 지시)와 툴(모델이 호출하는 외부 함수/API)이다.

피드백 루프에서 반복적으로 드러나는 프롬프트 문제 유형:

문제	증상	개선 방향
모호한 지시	일관성 없는 응답	명시적 포맷/제약 추가
너무 넓은 프롬프트	할루시네이션, 탈선	태스크 바운더리 좁히기
너무 좁은 프롬프트	실제 변동성에 대응 못함	예시 다양화, 컨텍스트 확장
에러 처리 부재	실패 시 멈추거나 엉뚱한 행동	에스컬레이션/폴백 지시 추가

개선 전략 4가지:

1
Rewriting for Clarity  →  명확한 지시, 응답 포맷 명시
2
Adding Exemplars       →  positive/negative 예시로 추론 앵커링
3
Decomposing Tasks      →  복잡한 멀티스텝을 순차적 서브프롬프트로 분리
4
Context Expansion      →  추가 배경/제약/도메인 지식 주입

DSPy ReAct + MIPROv2로 프롬프트 자동 최적화#

1
import dspy
2

3
# LM 설정
4
dspy.configure(lm=dspy.LM("openai/gpt-4o-mini"))
5

6
# 모의 툴 정의
7
def lookup_threat_intel(indicator: str) -> str:
8
    """위협 인텔리전스 조회"""
9
    return f"Intel for {indicator}: potentially malicious"
10

11
def query_logs(query: str) -> str:
12
    """보안 로그 검색"""
13
    return f"Logs for '{query}': suspicious activity detected"
14

15
# 학습 데이터: alert → 기대 response
16
trainset = [
17
    dspy.Example(
18
        alert="Suspicious login from IP 203.0.113.45 to admin account.",
19
        response="Lookup threat intel for IP, query auth logs, triage as true positive."
20
    ).with_inputs('alert'),
21
    dspy.Example(
22
        alert="Unusual file download from example.com/malware.exe.",
23
        response="Lookup intel for URL and hash, query endpoint logs, isolate host."
24
    ).with_inputs('alert'),
25
    dspy.Example(
26
        alert="Multiple failed logins from new device.",
27
        response="Query auth logs, lookup device IP intel, triage if attack pattern."
28
    ).with_inputs('alert'),
29
]
30

31
# ReAct 모듈: 추론 + 툴 호출을 자동으로 엮음
32
react = dspy.ReAct("alert -> response", tools=[lookup_threat_intel, query_logs])
33

34
# MIPROv2 옵티마이저: 프롬프트/few-shot을 자동 생성
35
optimizer = dspy.MIPROv2(
36
    metric=dspy.evaluate.answer_exact_match,
37
    auto="light",
38
    num_threads=24,
39
)
40
optimized_react = optimizer.compile(react, trainset=trainset)
41

42
# optimized_react는 내부 프롬프트가 자동 개선된 ReAct 모듈
43
# → 기존 SOC 에이전트 워크플로우에 drop-in 교체 가능

핵심 포인트: 사람이 프롬프트를 수동으로 튜닝하는 대신, 데이터셋 + 메트릭 기반으로 옵티마이저가 자동으로 더 나은 프롬프트를 생성한다. MIPROv2는 few-shot 예시 선택과 프롬프트 구조까지 자동 최적화한다.

프롬프트만으로는 부족한 경우가 많다. 에이전트가 호출하는 툴 자체의 내부 로직도 개선 대상이다.

피드백에서 드러나는 툴 문제 유형:

문제	예시
잘못된 툴 선택	threat intel 조회가 필요한데 log query를 호출
파라미터 오류	query_logs에 파싱 불가능한 SQL 전달
툴셋 갭	분류 기능이 없어서 triage 단계를 건너뜀
체이닝 실패	앞 툴의 출력 포맷이 뒤 툴의 입력과 불일치

툴 리파인먼트 3계층:

1
Refining Internal Logic    → 툴 내부의 프롬프트/모델 최적화
2
Expanding Capabilities     → 새로운 시나리오 커버를 위한 기능 확장
3
Integration Improvements   → 툴 간 입출력 호환성 보장

Python 예제: DSPy BootstrapFewshot로 Tool 내부 분류 로직 최적화#

1
import dspy
2

3
dspy.configure(lm=dspy.LM("openai/gpt-4o-mini"))
4

5
# 위협 분류기의 Signature 정의
6
class ThreatClassifier(dspy.Signature):
7
    """Classify threat level of an indicator as 'benign', 'suspicious', or 'malicious'."""
8
    indicator: str = dspy.InputField(desc="IP, URL, or file hash")
9
    threat_level: str = dspy.OutputField(desc="benign, suspicious, or malicious")
10

11
# Chain of Thought으로 추론 과정을 거쳐 분류
12
class ThreatClassificationModule(dspy.Module):
13
    def __init__(self):
14
        super().__init__()
15
        self.classify = dspy.ChainOfThought(ThreatClassifier)
16

17
    def forward(self, indicator):
18
        return self.classify(indicator=indicator)
19

20
# 학습 데이터: indicator → 정답 threat_level
21
trainset = [
22
    dspy.Example(indicator="203.0.113.45", threat_level="suspicious").with_inputs('indicator'),
23
    dspy.Example(indicator="example.com/malware.exe", threat_level="malicious").with_inputs('indicator'),
24
    dspy.Example(indicator="benign-site.net", threat_level="benign").with_inputs('indicator'),
25
    dspy.Example(indicator="abc123def456", threat_level="malicious").with_inputs('indicator'),
26
    dspy.Example(indicator="192.168.1.1", threat_level="benign").with_inputs('indicator'),
27
    dspy.Example(indicator="obfuscated.url/with?params", threat_level="suspicious").with_inputs('indicator'),
28
]
29

30
# 정확도 메트릭
31
def threat_match(example, pred, trace=None):
32
    return example.threat_level.lower() == pred.threat_level.lower()
33

34
# BootstrapFewshot: 학습 데이터에서 few-shot 예시를 자동 선별하여 프롬프트에 삽입
35
optimizer = dspy.BootstrapFewshotWithRandomSearch(
36
    metric=threat_match,
37
    max_bootstrapped_demos=4,   # 자동 생성 예시 최대 수
38
    max_labeled_demos=4,        # 라벨된 예시 최대 수
39
)
40
optimized_classifier = optimizer.compile(
41
    ThreatClassificationModule(), trainset=trainset
42
)
43

44
# 최적화된 분류기를 tool 함수에 통합
45
def classify_threat(indicator: str) -> str:
46
    """최적화된 DSPy 모듈로 위협 수준 분류"""
47
    prediction = optimized_classifier(indicator=indicator)
48
    return prediction.threat_level

MIPROv2 vs BootstrapFewshot 비교:

옵티마이저	최적화 대상	적합한 상황
MIPROv2	프롬프트 구조 + few-shot 예시 + 지시문	전체 에이전트 워크플로우의 프롬프트 최적화
BootstrapFewshot	few-shot 예시 선별·생성	개별 툴/모듈 내부의 분류/추론 로직 최적화

리파인먼트 원칙#

모든 프롬프트/툴 변경은 반드시:

문서화: 어떤 문제 → 어떤 변경 → 어떻게 효과 측정할 것인지
오프라인 검증: held-out 데이터 또는 합성 케이스로 테스트
라이브 검증: shadow deployment 또는 A/B test로 프로덕션 검증
모니터링: 사소한 프롬프트 수정도 시스템 전체에 파급 효과 가능

핵심 Takeaway#

프롬프트는 사용자 의도와 에이전트 행동 사이의 브릿지: 미세한 워딩 변화가 추론, 툴 선택, 출력 품질에 큰 영향
DSPy의 핵심 가치: 수동 trial-and-error 대신 데이터 기반 자동 최적화. “프롬프트 엔지니어링”을 “프롬프트 컴파일링”으로 전환
툴 리파인먼트는 3계층: 내부 로직 최적화, 기능 확장, 통합 개선. 프롬프트만 고치면 안 되고 툴도 함께 개선해야 한다
변경 → 문서화 → 오프라인 검증 → 라이브 검증 → 모니터링: 이 파이프라인을 건너뛰면 리그레션 위험

Concept

Prompt Refinement : 피드백 분석 결과를 바탕으로 프롬프트의 워딩, 구조, 예시, 컨텍스트를 개선하는 과정. 명확화, 예시 추가, 태스크 분해, 컨텍스트 확장 4가지 전략
Tool Refinement : 에이전트가 호출하는 외부 함수/API의 내부 로직, 파라미터 구조, 체이닝 호환성을 개선하는 과정. 3계층(내부 로직, 기능 확장, 통합 개선)
DSPy ReAct Module : 추론(Chain of Thought)과 행동(Tool 호출)을 자동으로 엮는 모듈. 옵티마이저와 결합하면 추론-행동 프롬프트가 자동 최적화됨
MIPROv2 : 프롬프트 구조, few-shot 예시, 지시문을 동시에 최적화하는 DSPy 옵티마이저. 전체 워크플로우 수준의 최적화에 적합
BootstrapFewshotWithRandomSearch : 학습 데이터에서 효과적인 few-shot 예시를 자동 선별·생성하는 DSPy 옵티마이저. 개별 모듈/툴 수준의 최적화에 적합
DSPy Signature : 태스크의 입출력을 선언적으로 정의하는 타입 명세. indicator -> threat_level처럼 무엇을 받아 무엇을 내놓는지를 명시
Exemplar Anchoring : 프롬프트에 positive/negative 예시를 포함하여 모델의 추론을 원하는 방향으로 고정(앵커링)하는 기법
DSPy Assertions & Constraints : 모듈 출력에 런타임 제약을 걸어 hallucination이나 포맷 위반을 자동 차단하는 DSPy 기능

01. Overview#

3단계 Improvement Loop#

Improvement Loop 시뮬레이션#

Key Takeaways#

2. Feedback Pipelines#

자동 프롬프트 최적화 루프 (APO)#

DSPy 스타일 자동 프롬프트 최적화 시뮬레이션#

자동 이슈 탐지와 Root Cause Analysis (RCA)#

자동 이슈 탐지 + RCA 파이프라인#

Key Takeaway#

3. Human-in-the-Loop (HITL) Review#

HITL 워크플로우#

에스컬레이션 기준 설계: 두 축#

에스컬레이션 라우터#

다학제 리뷰 프로세스#

리뷰 기록 및 지식 베이스 축적#

에스컬레이션 비율 최적화#

핵심 Takeaway#

4. Prompt & Tool Refinement#

4-1. Prompt Refinement#

DSPy ReAct + MIPROv2로 프롬프트 자동 최적화#

4-2. Tool Refinement#

Python 예제: DSPy BootstrapFewshot로 Tool 내부 분류 로직 최적화#

리파인먼트 원칙#

핵심 Takeaway#

관련 문서#