AI 제품 워크플로우의 표준: Assistant → Agent → Gate

요즘 AI를 붙인 제품은 많습니다. 그런데 “대화는 그럴듯한데, 실제로 일은 안 끝나는” 경우도 흔합니다. 반대로 “일은 끝나는데, 사고 나면 누가 책임지지?”라는 질문도 따라옵니다.

이 둘을 동시에 만족시키는 구조가 점점 표준처럼 자리 잡는 분위기입니다.

보편 패턴: 대화(Assistant) → 실행(Agent) → 승인(Gate/Confirm)

제가 보는 가장 보편적인 구조는 이렇습니다.

    • Assistant(대화 흐름): 사용자의 의도/맥락/제약을 정리해서 “무엇을 할지”를 확정합니다.
    • Agent(실행 흐름): 툴 호출, 워크플로우 오케스트레이션, 재시도/오류 처리로 “어떻게 끝낼지”를 수행합니다.
    • Gate(승인/정책): 돈·권한·대외 발신·개인정보·운영 변경 같은 고위험 구간에서 Confirm(확인 창) 또는 승인 단계를 둡니다.

겉으로는 “대화형 어시스턴트”인데, 속으로는 “업무 실행 엔진(에이전트)”이 돌고, 중요한 순간에는 “사람의 도장(게이트)”이 찍히는 구조입니다.

왜 이 조합이 강한가

    • UX: 사람은 말로 목표를 던지는 게 쉽고, 시스템은 워크플로우로 실행하는 게 안전합니다.
    • 운영: 재시도/분기/예외 처리를 대화로만 풀면 길어지기 쉽고, 품질 관리가 어려워집니다.
    • 조직: 사고 비용이 큰 순간에는 “승인 로그”가 있어야 살아남습니다. (AI가 아니라 사람이요)

단점도 분명합니다

    • 게이트가 많아지면 자동화 체감이 떨어집니다. “AI가 해준다”가 아니라 “AI가 물어본다”가 됩니다.
    • 게이트가 없으면 언젠가 한 번 터질 확률이 높습니다. 그리고 그 ‘한 번’은 보통 제일 바쁠 때 옵니다. (법칙입니다)

(사례) 실제 구축한 하이브리드 챗봇

제가 운영한 하이브리드 챗봇은 한 줄로 말하면 이런 형태였습니다.

CS 실시간 처리(정형) + AI 게임 가이드(비정형) 를 한 경험 안에서 연결한 구조

그리고 이 구조를 굴리면서 “대화–실행–승인”을 분리해 설계하는 것이 운영 안정성과 확장성에 꽤 크게 기여했습니다.

    • 2025년 기준, 연간 약 55만 명 이상 사용
    • CS 티켓 중 챗봇 자동 처리율 약 41%
    • 응답 품질: Good 87% 이상, 속도: p50 1초 미만(대략)
      – (참고) ‘Good’은 내부 기준의 Human Evaluation 라벨 기반 지표로 응답 일치를 뜻함

1) Assistant(대화) — “질문을 실행 가능한 형태로 압축”

유저는 보통 이렇게 들어옵니다.

    • “결제했는데 아이템이 안 들어왔어요.”
    • “퀘스트가 막혔어요. 어디로 가야 해요?”
    • “접속이 안 돼요. 보안 문제 같아요.”

Assistant는 여기서 정답을 장황하게 설명하기보다, 실행에 필요한 최소 정보만 수집합니다.

    • 결제/지급: 서버/캐릭터/대략 시간/상품명
    • 진행 막힘: 현재 퀘스트 단계/지역/진행 맥락
    • 보안: 로그인 방식/오류 메시지/최근 접속 변화

핵심은 하나입니다.

질문을 길게 받지 말고, 실행 가능한 형태로 “압축”해서 넘기기
(사용자는 상담원이 아니라 플레이어니까요.)

2) Agent(실행) — “툴과 룰로 일을 끝내기”

Agent는 그 다음을 담당합니다.

    • 로그/상태 조회(결제·지급·계정 등)
    • 정책/조건 매칭(가능/불가/예외)
    • 자동 처리(가능하면 즉시 해결)
    • 자동 티켓 생성(불가하거나 예외면 담당자에게 넘김)
    • 결과 메시지/ETA 생성(유저에게 안내)

여기서 중요한 포인트는 “LLM이 알아서 다 한다”가 아니라,

LLM은 의도 파악·요약·정책/문서 탐색에 강하고,
실제 실행은 결국 워크플로우(툴/룰/권한)로 굴러가야 안정적인 점 입니다.

3) Gate(승인) — “통제”가 아니라 “신뢰(Trust) 장치”

사례에서도 Gate는 빠질 수 없습니다. 다만 Gate를 “승인 단계”라고만 보면 흔한 이야기입니다. 현장에서 더 중요한 관점은 Gate가 신뢰를 만드는 장치라는 점입니다.

    • Transparency(투명성): “왜 이 선택을 했는지”를 짧게 보여주기
      • 근거/정책 매칭 결과, 영향 범위(대상·수량·금액), 대안(있다면)
    • Safety(안전): 고위험 액션은 Confirm(확인 창)과 승인 정책으로 제한하기
      • 2FA/2인 승인/쿨다운/롤백(Undo) 같은 제어 장치 포함

장문의 설명은 읽히지 않습니다. 3줄 요약이 더 강합니다.


Gate 정책 + Confirm UX

위 원칙을 실제 제품에서 굴리려면, 결국 “정책(레벨)”과 “화면(Confirm)”이 필요합니다.
아래는 하이브리드 챗봇에서 바로 쓰기 좋은 실무형 템플릿입니다.

1) 리스크 레벨(정책)

    • Low: 자동 실행 + 로그 기록 + 결과만 안내
      • 예: 가이드/FAQ 응답, 경량 조회, 문서 요약
    • Mid: 실행 요약 제시 → 1회 Confirm → 실행
      • 예: 티켓 생성, 소액/소량 보상 발급, 되돌리기 가능한 설정 변경
    • High: 2FA/2인 승인(필요 시) + 영향 범위 표시 + 롤백/Undo 강제
      • 예: 환불, 대량 지급, 계정 제재/복구, 개인정보 내보내기, 프로덕션 설정 변경

한 줄 원칙: 되돌릴 수 있으면 자동화, 되돌릴 수 없으면 Gate 강화

2) Confirm(확인 창)에는 3가지만 넣기

Confirm 화면에서 가장 흔한 실패는 “설명 장문”입니다. 아래 3가지만 있으면 됩니다.

    1. 무엇이 바뀌나(변경 요약 1~2줄)
    2. 영향 범위(대상/수량·금액/리스크 포인트)
    3. 되돌리기/복구(가능 여부 + 방법)

3) 컨펌 문구 템플릿(대표 1개)

    • “아래 작업을 실행합니다. 대상: {대상} / 변화: {변경} / 영향: {범위} / 되돌리기: {가능/불가}. 진행할까요?”

예상되는 대표 워크플로우 4가지

“Assistant → Agent → Gate”가 보편 패턴이라면, 실제 제품에서는 아래 변형들이 함께 공존할 가능성이 큽니다(= 패턴 카탈로그). 여기서 중요한 건, 각 패턴은 장점만큼 비용(지연/운영 복잡도/비용)도 동반한다는 점입니다.

1) Auto + Undo 패턴 (저위험·고빈도)

자동 실행 → 되돌리기(Undo) 제공

    • 장점: 마찰이 적고 “AI가 일한다” 체감이 큽니다.
    • 단점: Undo가 설계/권한/로그까지 포함해 안전하지 않으면 “자동화”가 아니라 “자동사고”가 됩니다.

2) Plan-First 패턴 (실행 전 계획 제출)

계획 제출 → 승인 → 실행

    • 예: 대량 발송, 운영정책 변경, 이벤트성 보상 배포
    • 장점: 승인자가 “무엇을 할지”를 이해하고 책임질 수 있습니다.
    • 단점: 계획서가 길어지면 아무도 안 읽습니다.
      • 현실적으로는 3줄 요약 + 영향 범위 + 롤백이 가장 효율적입니다.

3) Agent-in-the-Loop 패턴 (부분 자동화)

중요 단계만 사람 참여(예외 처리/최종 결정)

    • 예: 가능한 옵션은 자동 제시, 최종 보상안/예외 승인은 상담원이 선택
    • 장점: 생산성과 품질을 동시에 노릴 수 있습니다.
    • 단점: 역할 경계가 애매하면 “AI도 사람도 서로 떠넘기는 상태”가 됩니다. (가장 흔한 실패)

4) Multi-Agent 패턴 (분업형 협업)

리서치/실행/검수/감사를 에이전트로 분리

    • 장점: 복잡한 업무에서 안정성이 올라갑니다.
    • 단점: 비용과 지연이 증가합니다. 에이전트끼리 회의하다가 퇴근할 수 있습니다. (사람이 아니라 에이전트가요)

정리: AI 제품은 ‘말 잘하는 챗봇’이 아니라 ‘업무 시스템’이 됩니다

앞으로는 “AI가 답변을 잘한다”보다,
“AI가 업무를 끝내고, 그 과정이 통제 가능한가?”가 더 중요해질 것입니다.

그래서 저는 워크플로우를 이렇게 정리합니다.

대화(Assistant) → 실행(Agent) → 승인(Gate/Confirm)

그리고 상황에 따라 Auto+Undo, Plan-First, Agent-in-the-Loop, Multi-Agent 같은 변형 패턴이 공존합니다. 결국 차이를 만드는 건, Gate를 통해 신뢰를 설계할 수 있느냐입니다.

📘 2부: 프롬프트 엔지니어링은 GPT에게 맡기세요 — 실전 Before/After

이전 1부에서는
아래의 관점으로 개념을 정리해보았습니다.

“프롬프트 = 질문, 프롬프트 엔지니어링 = 설계”

이번 2부에서는 그 설계를
굳이 사람이 머리 싸매고 하지 않고,
GPT에게 그대로 맡겼을 때 어떤 차이가 나는지를 실제 사례로 정리해보려고 합니다.


🧩 0. 실험 방법 – 딱 이것만 바꿨습니다

실험 방법은 아주 단순합니다.

  1. 실제 업무에서 제가 하고 싶은 작업을 그대로 정리해둔다.
  2. Before: 떠오르는 대로 GPT에 “그냥 질문”을 던진다.
  3. After: GPT에게

    “이 작업을 가장 잘 수행할 수 있는 프롬프트를 먼저 설계해 주세요.”
    라고 요청한 뒤, 설계된 프롬프트로 다시 작업을 실행한다.

  4. 두 결과를 정확도·구조·재사용성·실무 활용성 기준으로 비교한다.
    → 바꾼 것은 딱 하나입니다.

“결과를 바로 달라”에서
“그 결과를 만드는 프롬프트부터 설계해 달라”로.


🏗️ 1. RAG 성능 평가: 그냥 질문 vs 설계 맡기기

1-1. Before — 그냥 물었을 때

제가 처음 GPT에게 던진 질문은 아주 단순했습니다.

Q. “RAG 성능 평가 기준 알려줘.”

GPT의 답은 대략 이런 식이었습니다. (요약)

    • Retrieval: Recall@K, Precision@K, MRR, nDCG 등
    • Generation: 정답성, 근거충실도, 인용 정확도, 완전성 등
    • UX/운영: Latency, Success rate, Deflection, Cost per query 등
    • Safety: PII, 프롬프트 인젝션, 유해 콘텐츠, 어뷰징 대응 등

내용만 보면 틀린 말이 하나도 없습니다.
실제로도 RAG 논문/문서에서 자주 볼 수 있는 구성입니다.

문제는,

    • “우리 서비스에 바로 붙여 쓸 수 있는 평가표”는 아니라는 점입니다.
    • 결국 지표를 다시 고르고, 정의를 다시 쓰고, 합격선을 다시 잡는 일을 제가 해야 합니다.

정리하면,

Before: 교과서식 개념은 얻었지만,
“실제 프로젝트에 붙여 쓸 수 있는 프레임워크”는 아닌 상태.


1-2. After — GPT에게 ‘프롬프트 설계’를 먼저 시킨 버전

이번에는 접근을 완전히 바꿔봤습니다.

Q. “RAG 시스템 평가를 위한 프레임워크를 만들고 싶습니다.
먼저 이 작업에 최적화된 프롬프트를 설계해 주세요.”

이때 GPT에게 맡긴 역할은
“지식 설명자”가 아니라 “평가 프레임워크 설계자”였습니다.

GPT가 먼저 만들어 준 것은 “평가 프레임워크 템플릿을 만드는 프롬프트”였습니다.
구조만 요약하면 대략 이런 형태입니다.

    • 역할(Role): RAG/하이브리드 챗봇 평가 실행자
    • 입력(Input)
      • {TEMPLATE}: 합의된 평가 프레임워크 템플릿
      • {SYSTEM_DESC}: 실제 평가 대상 시스템 설명(도메인, 채널, 정책, 실험 조건 등)
    • 출력(Output)
      1. 평가 스코어카드(표)
      2. 실패 유형 분류표
      3. 평가 데이터셋 설계
      4. A/B 실험 설계 요약
      5. 실행 체크리스트
      6. 리스크 Top3 & 이번 주 액션 Top3

즉, GPT에게 이렇게 말한 셈입니다.

“RAG를 잘 평가하는 사람이 된다면,
이 정도는 기본으로 만들어야 하지 않겠습니까?”

그다음 단계에서,
GPT가 설계한 이 프롬프트를 실제 프로젝트 맥락(게임 도메인 CS·AI 챗봇)에 그대로 적용했습니다.
그러자 이번에는 처음부터 “바로 실전에 쓸 수 있는 평가 산출물”이 출력됐습니다.


1-3. After 결과물 스냅샷 – “바로 쓰는 스코어카드”

실제 결과물은 매우 길지만,
핵심만 보여드리면 대략 이런 형태입니다.

🔎 축별 대표 지표 일부 발췌

지표명정의합격선 예시
RetrievalEvidence Hit@5정답 근거 문서가 Top-5에 포함된 비율Hit@5 ≥ 0.85
GroundingHallucination Rate근거 없이 정책/절차를 단정한 응답 비율≤ 3%
Answer 품질Policy Correctness환불/제재 등 정책 응답의 정합성≥ 0.98
UX·운영Deflection Rate“정답” 기준 티켓 없이 해결된 세션 비율≥ 0.35 (초기 운영 기준)
SafetySecurity Abuse Refusal부정행위/해킹 유도 요청을 거절한 응답 비율≥ 0.99

이 테이블의 중요한 점은:

    • 게임 CS 맥락에 맞는 지표 + 정의 + 합격선이 한 번에 잡혀 있고
    • “어디서 자주 틀리는지”, “무엇을 먼저 모니터링해야 하는지”가
      이미 설계된 상태로 나온다는 것입니다.

그래서 이 결과는

    • 제 머릿속 정리 → 메모 → 엑셀 → 문서… 과정을 생략하고,
    • 곧바로 대시보드 기획 & 라벨링 설계 단계로 넘어갈 수 있게 해줍니다.

※ 실제로는 스코어카드, 실패 유형 분류표, 데이터셋 설계, A/B 설계 등
모든 산출물이 훨씬 길습니다.
전체 전문은 글 하단 ‘부록’에 구조만 만들어 두었습니다.
(필요하신 분은 그대로 복붙해서 참고하시면 됩니다.)


1-4. Before/After에서 달라진 것들

한 줄로 비교하면 이렇습니다.

    • Before:
      • “RAG 평가 지표가 뭐가 있는지”는 알게 되지만,
      • 결국 내가 다시 구조를 짜야 하는 상태
    • After:
      • “우리 서비스에 맞는 평가표/실험 설계/체크리스트까지”
      • 한 번에 뽑혀 나오는 상태

그리고 이 변화는,
모델을 바꾼 것도, 사람을 바꾼 것도 아니라

“그냥 질문했냐” vs “프롬프트 설계부터 맡겼냐”
이 차이에서 나왔습니다.


🎯 2. 언제는 그냥 질문만 해도 되는가

여기까지 읽으면
“앞으로는 모든 작업에 다 이렇게 해야 하나?”
라는 생각이 드실 수 있습니다.

제 기준은 이렇습니다.

❌ 굳이 엔지니어링까지 안 해도 되는 경우

    • 단발성 정보 조회
    • 오늘 점심 메뉴 같은 가벼운 질문
    • 짧은 문장 다듬기, 한두 문단 요약

→ 그냥 자유롭게 질문해도 충분합니다.

⭕ 프롬프트 엔지니어링이 확실히 먹히는 경우

    • 비슷한 작업을 여러 번 반복하는 경우
    • 정확도·재현성이 중요한 경우 (지표/정책/계약/CS 등)
    • 팀 차원에서 프롬프트/결과물을 공유해야 하는 경우

이때는 한 번만 제대로 설계해두면,
그 뒤로는 “나 + 팀의 시간”이 같이 줄어듭니다.


🧭 3. 마무리 — 설계를 “누가 하느냐”의 문제

정리하면, 프롬프트 엔지니어링

    1. 더 좋은 결과를 더 예측 가능하게 얻기 위한 설계이고
    2. 반드시 사람이 다 할 필요는 없다는 점이 중요합니다.

요즘 방식은 이런 느낌에 가깝습니다.

  “GPT야,
  이 작업을 가장 잘 수행할 수 있는 프롬프트를
  먼저 설계해 줘.”

사람은 요구사항과 맥락만 잘 전달하고,
실제 프롬프트 구조·포맷·샘플 설계는 GPT에게 넘기는 쪽으로 흐름이 바뀌고 있습니다.

프롬프트 엔지니어링은 이제 특정 직군의 전문 기술이라기보다, “AI를 내 도구로 만들고 싶은 사람이라면 누구나 가져갈 수 있는 설계 습관”에 가깝다라고 보여집니다.

이제 프롬프트 엔지니어링은 고민말고 GPT에게 맡기세요.

 


 

 

📘부록: RAG 평가 전체 예시


📎 부록 A. RAG 평가 — Before Q/A 전문

Q:

RAG 성능 평가 기준 알려줘.

A:

RAG 성능 평가는 보통 (1) 검색이 잘 됐는지, (2) 답변이 근거에 붙어있는지, (3) 운영 품질이 괜찮은지 3축으로 봅니다. (지표는 많은데 대시보드는 한 장이죠… 😅)

1) Retrieval (검색 품질)

    • Recall@K / Hit rate@K: 정답 근거 문서가 Top-K에 들어왔는지
    • Precision@K: Top-K가 “정답에 도움 되는 문서”로 얼마나 깨끗한지
    • MRR / nDCG: 정답 근거가 얼마나 위에 랭크되는지
    • Chunk 품질 지표(정성 포함): chunk 길이/중복/노이즈, 쿼리-문서 매칭 적합도

2) Grounded Generation (생성 품질: 근거 기반)

    • Answer Correctness (정답성): 질문에 대한 최종 답이 맞는지
    • Faithfulness / Groundedness (근거충실도): 제공된 컨텍스트 밖 “추측”이 섞였는지(=환각)
    • Citation Accuracy (인용 정확도): 인용/출처가 실제 주장과 일치하는지
    • Completeness (충분성): 필요한 항목을 빠짐없이 답했는지

3) End-to-End UX & Ops (운영/경험)

    • Latency (p50/p95): 응답 시간(평균보다 p95가 실전 체감)
    • Success rate: 정상 응답 비율(타임아웃/에러/빈 답 제외)
    • Deflection / Task success: 사용자 문제 해결로 이어졌는지(전환/재문의율)
    • Cost per query: 쿼리당 비용(토큰+검색 인프라 포함)
    • Stability: 배포 후 품질 드리프트(데이터 변경/색인 갱신/모델 업데이트 영향)

4) Safety & Robustness (필요 시)

    • PII/보안 위반률, 프롬프트 인젝션 취약성, 유해/금칙 응답률
    • Adversarial 쿼리 성능(애매한 질문/함정 질문/근거 부족 상황)

실무에서 흔한 결론(좋은 점/나쁜 점)

    • 좋은 점: “검색(Recall) + 근거충실도(Faithfulness) + 지연(p95)”만 잡아도 대다수 문제가 어디서 생기는지 보입니다.
    • 나쁜 점: 지표를 늘리면 보고서는 풍성해지지만, 우선순위는 더 헷갈립니다(“측정은 했는데 개선이 안 됨” 함정).

📎 부록 B. RAG 평가 — “프롬프트 설계” 요청 전문

RAG 시스템 평가를 위한 프레임워크를 만들고 싶습니다. 먼저 이 작업에 최적화된 프롬프트를 설계해 주세요.

📎 부록 C. RAG 평가 — 설계된 프롬프트 전문

당신은 “게임 하이브리드(CS·AI) 챗봇”의 평가 프레임워크를 만드는 평가 리드입니다.
목표는 ‘RAG+LLM 답변’과 ‘Rule/FAQ/티켓 플로우’가 섞인 챗봇을 실무에서 운영·개선할 수 있도록,
바로 복붙 가능한 “평가 템플릿(표+기준+체크리스트)”을 만드는 것입니다.

### [기본 컨텍스트(가정)]
- 도메인/서비스: 게임 고객센터용 하이브리드 챗봇(CS+AI)
- 사용자 Top Tasks:
1) 결제/환불/구독(청약철회, 결제 오류)
2) 계정/보안(로그인, OTP, 해킹 의심)
3) 이용제한/제재(사유/이의제기)
4) 아이템/재화(미지급, 소멸, 우편)
5) 버그/접속장애(공지/해결가이드/티켓)
6) 이벤트/쿠폰(조건, 지급, 기간)
- 입력/출력 언어: 한국어(KO→KO), 게임 용어/약어/오타 많음
- 지식원천: 공지/패치노트, 운영정책, 결제/환불 정책, 계정/보안 가이드, FAQ, GM 매뉴얼, CS 티켓 답변 템플릿(최신 우선)
- 아키텍처(일반적 가정):
- Hybrid retrieval: BM25 + Vector + reranker, Top-k 5~10
- Chunking: 300~600 tokens, overlap 50~100, 메타데이터(문서종류/게임/지역/버전/개정일)
- Generator: LLM이 최종 답변 + “근거 인용” + 필요 시 티켓 전환(링크/폼)
- 운영 제약(가중치):
- 정확도/정책 준수 60% + 지연 25% + 비용 15%
- 목표 응답시간: p50 2초 / p95 6초
- 안전/정책 요구:
- PII/계정정보 요청 최소화(“스크린샷/주문번호/UID” 수집은 단계·목적 명시)
- 부정행위/취약점 악용/환불 꼼수 유도 등 금지
- 법/결제 관련 문구는 근거 문서 기반, 불확실 시 상담/티켓 유도
- 비교 실험 축(기본): 제로샷 vs 프롬프트 설계(가드레일/출력포맷/인용 강화)

### [산출물 요구: 짧게, 하지만 ‘실무용’으로]
아래 5개를 반드시 출력하세요(불필요한 개념 설명 금지).

1) “평가 스코어카드(표)” 1개
- 축: Retrieval / Grounding / Answer 품질 / UX·운영 / Safety
- 각 항목별: 지표명, 정의, 단위, 측정법(로그 기반/라벨링), 합격선(기본 Threshold), 치팅 가능성(낮/중/높)
2) “실패 유형 분류표” 1개
- 게임 CS에 특화된 실패 예시 포함(환불 정책, 제재 사유, 이벤트 조건 등)
3) “평가 데이터셋 설계” 요약
- Head/Torso/Longtail 비율 제안
- 최신 문서/충돌 문서/유사 문서/빈 근거(knowledge gap) 케이스 포함
4) “실험 설계” 요약(A/B)
- 제로샷 vs 프롬프트 설계 비교 시 통제변수/독립변수/핵심 KPI 제시
- 회귀(절대 깨지면 안 되는 30개 핵심 케이스) 정의 방식 포함
5) 마지막에 딱 8줄:
- 이번 프레임워크에서 ‘가장 위험한 함정 5개’
- ‘우선순위 Top 3 개선 액션’

추측이 필요한 부분은 진행하되, 결과에 영향 큰 불확실성 3개만 “확인 필요”로 끝에 적으세요.

📎 부록 D. 평가 스코어카드 전체 표

※ 누르면 크게 보입니다. 텍스트 표가 깨져서 이미지로 첨부하니 양해 바랍니다.


📎 부록 E. 실패 유형 분류표 전체

※ 누르면 크게 보입니다. 텍스트 표가 깨져서 이미지로 첨부하니 양해 바랍니다.


📎 부록 F. 평가 데이터셋 / 실험 설계 요약 전문

평가 데이터셋 설계 요약

    • 분포(권장): Head 35% / Torso 45% / Longtail 20%
    • 케이스 구성(필수 포함)
      • 최신 문서 우선: 최근 30일 내 공지/정책 개정 기반 20% 이상
      • 충돌 문서 세트: “구정책 vs 신정책”, “서버/지역별 상이 정책” 10%
      • 유사 문서 혼동 세트: 제목/키워드 유사(환불 vs 결제오류, 제재 vs 보호조치) 10%
      • Knowledge Gap(빈 근거): 문서에 없는 문의(미공개 이벤트/개별 계정 상태) 10%
      • 오타/약어/은어: “ㅈㅈ”, “환불ㄱ?”, “핵의심”, “OTP튕김” 등 변형 15%
      • 고위험 도메인 과대표집: 결제/환불·계정/보안·제재 합산 50% 이상(정책/법 리스크 때문)
    • 라벨 스키마(최소): 정답유형(FAQ/정책/RAG/티켓전환), 정답근거(문서ID+스팬), 핵심 주장 체크리스트(기간/조건/예외/필요정보), 안전(PII/악용/법)
    • 샘플 수 가이드(초기): 오프라인 400~800 / 회귀 30 / 악성(안전) 80~150

실험 설계 요약(A/B: 제로샷 vs 프롬프트 설계)

    • 독립변수(A/B)
      • A(제로샷): 최소 시스템 지시 + 기본 인용만 허용
      • B(프롬프트 설계): (1) 출력 포맷 고정(요약→단계→필요정보→전환) (2) 인용 강제(핵심 주장마다) (3) 정책/법/보안 가드레일 (4) Knowledge gap 처리 (5) 티켓 전환 트리
    • 통제변수(고정)
      • 동일 모델/온도/토큰 제한, 동일 리트리벌(BM25+Vec+rerank, k=5~10), 동일 청킹/메타필터, 동일 지식베이스 스냅샷, 동일 캐시 정책
    • 핵심 KPI(우선순위)
      1. Policy Correctness, Hallucination Rate, PII Minimization (정확·정책)
      2. p50/p95 Latency (지연)
      3. Cost/Session (비용)
      4. 보조: Task Success, Citation Precision/Coverage, Escalation Accuracy
    • 판정 방식(추천)
      • 오프라인: 동일 평가셋에서 스코어카드 비교(신뢰구간/유의성)
      • 온라인(가능 시): 10~20% 트래픽 A/B, “정답 라벨 표본”으로 Deflection을 정답일 때만 계산
    • 회귀(절대 깨지면 안 되는 30개) 정의 방식
      • Top Task별 5~6개씩(결제/보안/제재 우선), 최신 정책 1개 + 충돌 1개 + 빈근거 1개 포함
      • “법/결제 문구 단정 금지”, “제재 사유 추정 금지”, “PII 최소수집” 같은 가드레일 회귀 10개를 별도 트랙으로 고정
      • 릴리즈마다 30개 전수, 임계치 미달 시 롤백(게임 밸런스 패치처럼요)

함정1: “Deflection 상승”만 보고 좋아했다가, 정답 검증 없이 CS 폭탄(가짜 해결) 터집니다.
함정2: 최신/충돌 문서 처리를 안 하면, 환불·제재에서 한 번에 신뢰가 증발합니다.
함정3: 인용이 ‘있기만’ 하면 된다고 착각하면, Citation Precision에서 바로 걸립니다.
함정4: Knowledge gap에서 단정 한 줄이면, 법/보안/결제 리스크가 즉시 현실화됩니다.
함정5: p95 최적화 없이 p50만 맞추면, 피크 타임에 챗봇이 “로딩창 NPC”가 됩니다.
액션1: 고위험(결제/보안/제재) 150케이스 과대표집 + 회귀30 고정부터 만드세요.
액션2: “최신 우선+충돌 인지+단정 금지+티켓 트리”를 프롬프트/룰로 하드코딩하세요.
액션3: Citation Precision/Coverage 라벨링을 먼저 붙여서, 개선 방향을 데이터로 고정하세요.

확인 필요(영향 큰 불확실성 3개)

    1. 티켓 전환 채널(웹폼/인게임/CS툴)에서 필수 수집 필드(UID/주문번호/스크린샷)와 수집 허용 범위(정책/법무).
    2. “정답 Deflection”의 운영 목표치(예: 35% vs 50%)와, 실패 시 허용 가능한 CS 리스크 한도.
    3. 지식베이스의 갱신 주기/버전 관리 체계(공지·정책 개정이 실시간인지, 배치인지) 및 “최신 판정”의 단일 진실원천(SSOT).

차는 이미 소프트웨어다: SDV와 AI 비서의 진짜 역할

부제: 요즘 뜨거운 SDV와 AI 비서를 제품 구조 관점에서 다시 보기


서론

요즘 SDV, 피지컬 AI, AI 비서 같은 단어가 끊임없이 등장합니다.
읽다 보면 “뭔가 대단한 일이 벌어지는 것 같긴 한데, 도대체 구조가 어떻게 된다는 거지?” 하는 생각이 들 때가 많습니다. 저도 그래서, 도대체 이게 뭔 소린지 PM 관점에서 한 번 끝까지 파헤쳐 보기로 했습니다.

결국 제조사들이 말하는 SDV(Software Defined Vehicle)는 “소프트웨어로 가득찬 차”가 아니라,
‘판매 후에도 계속 업데이트·과금·데이터 수집이 가능한 플랫폼으로 차를 다시 정의’하겠다는 선언에 가깝습니다. 그리고 그 위에서 사람의 자연어를 받아 차량 전체를 움직이는 인터페이스AI 비서(Assistant)입니다.

한국만 놓고 봐도 현대차·기아가 SDV·피지컬 AI 관련 조직과 발표를 전면에 내세우고 있고,
완성차·빅테크 모두 “차 안의 AI”를 새로운 전장으로 삼으려는 분위기입니다. 게임/콘텐츠 도메인에서 AI 챗봇 PM를 하고 있는 입장에서, 이 흐름이 우리가 만드는 챗봇·어시스턴트와 얼마나 닮아 있고 뭐가 다른지가 궁금했습니다.

이 글에서는 ① SDV 구조, ② 그 위에서의 AI 비서 역할, ③ PM 관점에서 체크해야 할 포인트를 제품 아키텍처·데이터·가드레일 관점에서 한 번 차분히 풀어보려고 합니다.

요약하면, 이 글의 질문은 하나입니다.
“차가 이미 소프트웨어라면,
그 위에서 AI 비서는 정확히 무엇을 결정하고 어디까지 책임져야 할까?”

※ 클릭하시면 크게 보입니다.

 


1. 왜 SDV인가 — “한 번 팔고 끝” 모델의 한계

하드웨어 경쟁은 이미 상향 평준화되었습니다. 완성차 입장에서는 이제:

  • OTA(Over-the-Air Update)로 기능을 계속 추가·개선하고
  • FoD(Feature on Demand)·구독으로 반복 매출을 만들며
  • 실제 주행 데이터를 기반으로 제품 개선 루프를 돌려야 합니다.

SDV는 “소프트웨어가 많은 차”가 아니라,
“팔린 이후에도 계속 업데이트되고, 돈을 버는 플랫폼”으로의 전환입니다.
한국에서도 현대차·기아가 SDV·OTA 조직을 전면에 내세우는 이유가 여기에 있습니다.

개인적으로는 완성차들이 SDV를 이야기하는 이유가
“소프트웨어 회사처럼 보이고 싶어서”라기보다,
판매 이후에도 매출과 데이터를 계속 가져가는 구조를 선점하려는 경쟁에 더 가깝다고 보고 있습니다.


2. SDV의 핵심 구조 — OS·OTA·규제까지 포함한 플랫폼

제품 구조 관점에서 SDV는 대략 이렇게 보입니다.

  • 중앙 집중형 컴퓨팅(HPC)
    고성능 SoC 기반 차량 컴퓨터가 인포테인먼트·ADAS·AI 연산을 통합 처리합니다.
  • 서비스 지향 아키텍처(SOA)
    조명, 시트, 공조, ADAS가 각각 서비스 단위로 노출되고, API로 호출됩니다.
  • 통합 Vehicle OS(MB.OS 등)
    차량 기능 전체를 하나의 OS에서 관리하는 구조가 UX·AI 통합의 기반이 됩니다.
  • OTA 파이프라인
    기능·맵·모델을 원격 업데이트하고, 롤백·버전 관리까지 포함한 운영 체계입니다.
  • 규제·보안(UNECE WP.29 등)
    소프트웨어 변경 이력·사이버 보안 요구사항을 강하게 제약합니다.

요약하면, SDV는 “API로 쪼개진 차량 기능 + 이를 관리하는 OS/OTA/규제 레이어”입니다.


3. SDV 위 AI Assistant의 역할 — UX이자 총괄 매니저

이 상위 레이어 위에서 AI Assistant는 세 가지 역할을 맡습니다.

  1. 오케스트레이터
    자연어로 들어온 의도(“나 추워”, “졸리다”)를 여러 서비스 호출로 분해·조합합니다.
  2. Deep Integration UX
    창문·공조·시트 열선·앰비언트 라이트까지 한 번에 제어하는 “행동 단위 UX”를 만듭니다.
  3. 에코시스템 인터페이스
    스마트폰·가전·차를 잇는 HyperOS류 생태계에서 기기 간 경계를 허무는 역할을 합니다.

비유하자면, SDV는 스마트 공장, AI Assistant는 그 안에서
사람의 주문을 이해해 로봇팔·컨베이어를 돌리는 지능형 운영 책임자입니다.
공장 설비가 아무리 좋아도 책임자가 오판하면… 뭔가 터진다는 건 다들 아실 겁니다.

실제 제가 챗봇 PM 일을 하면서 느낀 것도 비슷했습니다.
챗봇이 얼마나 “똑똑해 보이느냐”보다,
내부 시스템·API들을 어떻게 엮어서 실제 행동으로 만들 것인가가 결국 승부였습니다. 차량 내부에서도 AI Assistant는 같은 역할을 맡게 될 가능성이 매우 크다고 보고 있습니다.


4. AI Assistant의 동작 방식 — Intent → Plan → API

LLM 기반 AI Assistant의 기본 플로우는 다음 네 단계로 정리할 수 있습니다.

  1. Intent 파악
    음성/텍스트 → “온도 조절”, “경로 안내”, “상태 설명” 같은 상위 Intent로 변환
  2. 플랜 생성(Planning)
    필요한 차량 서비스와 순서를 정해 워크플로우 생성
    – 예: 히터 온도 +2도 → 시트 열선 1단 → 송풍 모드 변경
  3. 서비스 실행(Orchestration)
    SOA로 노출된 API를 중앙 컴퓨터(HPC)에서 호출, Latency·리소스 점유율은 별도 KPI로 관리합니다. (출처: input data)
  4. 피드백 & 로그
    3D 그래픽·음성으로 “지금 무엇을 하는지”를 설명하고,
    사고·클레임에 대비해 설명 가능한 로그로 남깁니다.

즉, “자연어 → 의도 → 플랜 → 차량 API 호출”이 AI Assistant의 기본 루프입니다.

🔹챗봇과의 차이 — 같은 Intent, 다른 결과물

일반적인 CS/서비스 챗봇은 보통 이렇게 동작합니다.

  • 챗봇
    • Intent → 라우팅 → FAQ/검색 결과/툴 호출
    • 결과물: 텍스트·링크·정보 “답변”

반면 차량 AI 비서는 한 단계가 더 붙습니다.

  • 차량 AI 비서
    • Intent → Plan 생성 → 차량 API 호출 → 실제 차량 동작
    • 결과물: 히터·창문·시트·조명 등 “물리적인 행동”

의도까지는 똑같이 해석하지만,
챗봇은 “무슨 말을 할지”를 고르고,
차량 AI 비서는 “무엇을 어떻게 움직일지”를 계획하고 실행한다는 점이 핵심 차이입니다.

그래서 “이게 피지컬 AI냐?”라고 물으면,
넓은 의미에서는 그렇다고 볼 수 있을 것 같습니다.
자연어를 받아서 실제 물리 세계(차량 하드웨어)를 움직이는 AI 오케스트레이터니까요.
다만 완전히 자율로 막 움직이게 두지는 않고,
가드레일과 규제 안에서만 행동하는 형태라는 점이 현실적인 한계이자 특징입니다.


5. 리스크·가드레일 — 어디까지 맡길 것인가

장점만큼 리스크도 분명합니다.

  • 안전(Safety)
    잘못된 Intent 해석으로 위험한 설정을 바꿀 수 있습니다.
    → 조향·제동 등은 AI의 직접 단독 제어 금지가 기본 가드레일입니다.
  • 환각(Hallucination)
    실제 차량 상태와 다른 정보를 그럴듯하게 말해 운전자가 오판할 수 있습니다.
  • 주의 분산(Distraction)
    과도한 대화·그래픽이 시야를 빼앗을 수 있어, HMI 설계에서 “운전 중 모드”가 필수입니다.
  • 규제·OTA 제약
    모델·프롬프트 변경도 WP.29 등 규제 안에서 검증·승인·롤백을 거쳐야 합니다.
  • 보안·데이터
    차량·모바일·홈 데이터 통합은 편리하지만, 해킹 시 공격 범위가 커집니다.

실제 여러 조직에서 “AI가 알아서 잘 해주겠지”라는 기대가 앞서는 모습을 자주 봅니다.
하지만 제품을 만들어보면, AI의 능력을 키우는 것 못지않게
“무엇을 절대 못 하게 할지”를 정의하는 일이 훨씬 어렵다는 걸 체감하게 됩니다.


6. PM 체크리스트 — 지금 당장 확인해야 할 10가지

AI Assistant/SDV 프로젝트를 맡은 Product Manager라면,
장기적으로는 이 10문항에 숫자로 답할 수 있는 구조를 갖추는 게 목표가 될 것입니다.

  1. 자연어 명령의 테스크 완수율(Task Completion Rate)은 어떻게 정의·측정하고 있는가?
  2. Assistant 기능의 FoD/구독 매출 기여도는 얼마나 되는가?
  3. 사고·오작동 시 AI 판단 근거를 복기할 설명 가능한 로그 구조가 있는가?
  4. 자동차 도메인 전용 데이터셋으로 LLM 환각률을 주기적으로 평가하는가?
  5. 모델/로직 업데이트 실패 시 즉시 되돌릴 OTA 롤백 프로세스가 있는가?
  6. WP.29 등 기준에 맞는 소프트웨어 변경 이력·보안 패치 체계가 운영되는가?
  7. HPC에서 AI 연산의 리소스 점유율·응답 지연 시간(p95 등) 목표는 무엇인가?
  8. AI 결정이 3D 그래픽·음성으로 운전자가 직관적으로 이해할 수 있게 표현되는가?
  9. 사용자의 루틴·상태를 활용하되, 과한 간섭 없이 선제 제안하도록 설계했는가?
  10. 스마트홈·모바일 등 외부 기기와의 연동을 위한 API 표준·버전 전략이 정리되어 있는가?

멋진 데모를 넘어서 실제 양산·운영 단계로 가는지는, 거의 이 10문항에서 갈릴 것입니다.


결론 — 한 줄로 정리하면

SDV는 차량을 소프트웨어 플랫폼으로 재정의하는 상위 레이어이고,
AI Assistant는 그 위에서 사람의 말을 받아 여러 기능을 대신 조합해주는 총괄 매니저에 가깝습니다.

결국 게임은 “얼마나 똑똑하냐”가 아니라,
얼마나 안전하고 일관되게, 그리고 수익이 나게 오케스트레이션하느냐에서 결정될 것입니다.


용어 정리 (Glossary)

  • SDV (Software Defined Vehicle)
    소프트웨어로 기능을 정의·업데이트하는 차량 구조.
    기계·하드웨어 중심이 아니라 소프트웨어·데이터·OTA가 가치의 중심이 되는 차를 의미합니다.
  • OTA (Over-the-Air Update)
    정비소 방문 없이, 무선 네트워크를 통해 차량 소프트웨어를 업데이트하는 방식입니다.
    지도, 인포테인먼트, ADAS 로직, AI 모델까지 OTA로 바뀔 수 있습니다.
  • FoD (Feature on Demand)
    차량에 이미 들어 있는 기능을 필요할 때만 유료로 열어 쓰는 방식입니다.
    예: 일정 기간 동안만 고급 ADAS, 고급 오디오 모드, 구독형 기능 등을 쓰고 과금.
  • MB.OS (Mercedes-Benz Operating System)
    메르세데스-벤츠가 개발하는 통합 차량 운영체제로, 인포테인먼트·ADAS·차량 제어를 하나의 OS에서 관리하는 SDV 전략의 핵심 사례입니다.
  • SOA (Service Oriented Architecture)
    차량 기능(조명, 시트, 공조, ADAS 등)을 “서비스” 단위로 쪼개 API처럼 호출할 수 있게 만든 아키텍처입니다.
    AI Assistant가 이 서비스들을 조합해 워크플로우를 만들 수 있게 해줍니다.
  • HPC (High Performance Computer)
    과거 여러 ECU로 나뉘던 연산을 통합하는 고성능 차량용 중앙 컴퓨터입니다.
    AI Assistant·3D 그래픽·ADAS 연산을 한 번에 처리하는 하드웨어 기반이 됩니다.
  • HMI (Human-Machine Interface)
    운전자와 차량이 상호작용하는 화면·버튼·음성 인터페이스 전반을 의미합니다.
  • UNECE WP.29 / R155 / R156
    UN 유럽경제위원회 산하 자동차 규제 포럼(WP.29)에서 만든 규정들로,
    – R155: 차량 사이버 보안 규정
    – R156: 소프트웨어 업데이트(OTA) 규정
    SDV·AI Assistant를 설계할 때 반드시 고려해야 하는 글로벌 규제 축입니다.