์ด์ 1๋ถ์์๋
์๋์ ๊ด์ ์ผ๋ก ๊ฐ๋
์ ์ ๋ฆฌํด๋ณด์์ต๋๋ค.
“ํ๋กฌํํธ = ์ง๋ฌธ, ํ๋กฌํํธ ์์ง๋์ด๋ง = ์ค๊ณ”
์ด๋ฒ 2๋ถ์์๋ ๊ทธ ์ค๊ณ๋ฅผ
๊ตณ์ด ์ฌ๋์ด ๋จธ๋ฆฌ ์ธ๋งค๊ณ ํ์ง ์๊ณ ,
GPT์๊ฒ ๊ทธ๋๋ก ๋งก๊ฒผ์ ๋ ์ด๋ค ์ฐจ์ด๊ฐ ๋๋์ง๋ฅผ ์ค์ ์ฌ๋ก๋ก ์ ๋ฆฌํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
0. ์คํ ๋ฐฉ๋ฒ โ ๋ฑ ์ด๊ฒ๋ง ๋ฐ๊ฟจ์ต๋๋ค
์คํ ๋ฐฉ๋ฒ์ ์์ฃผ ๋จ์ํฉ๋๋ค.
- ์ค์ ์ ๋ฌด์์ ์ ๊ฐ ํ๊ณ ์ถ์ ์์ ์ ๊ทธ๋๋ก ์ ๋ฆฌํด๋๋ค.
- Before: ๋ ์ค๋ฅด๋ ๋๋ก GPT์ โ๊ทธ๋ฅ ์ง๋ฌธโ์ ๋์ง๋ค.
- After: GPT์๊ฒ
โ์ด ์์ ์ ๊ฐ์ฅ ์ ์ํํ ์ ์๋ ํ๋กฌํํธ๋ฅผ ๋จผ์ ์ค๊ณํด ์ฃผ์ธ์.โ
๋ผ๊ณ ์์ฒญํ ๋ค, ์ค๊ณ๋ ํ๋กฌํํธ๋ก ๋ค์ ์์ ์ ์คํํ๋ค. - ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ํ๋ยท๊ตฌ์กฐยท์ฌ์ฌ์ฉ์ฑยท์ค๋ฌด ํ์ฉ์ฑ ๊ธฐ์ค์ผ๋ก ๋น๊ตํ๋ค.
โ ๋ฐ๊พผ ๊ฒ์ ๋ฑ ํ๋์ ๋๋ค.
โ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ก ๋ฌ๋ผโ์์
โ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋๋ ํ๋กฌํํธ๋ถํฐ ์ค๊ณํด ๋ฌ๋ผโ๋ก.
ย 1. RAG ์ฑ๋ฅ ํ๊ฐ: ๊ทธ๋ฅ ์ง๋ฌธ vs ์ค๊ณ ๋งก๊ธฐ๊ธฐ
1-1. Before โ ๊ทธ๋ฅ ๋ฌผ์์ ๋
์ ๊ฐ ์ฒ์ GPT์๊ฒ ๋์ง ์ง๋ฌธ์ ์์ฃผ ๋จ์ํ์ต๋๋ค.
Q. โRAG ์ฑ๋ฅ ํ๊ฐ ๊ธฐ์ค ์๋ ค์ค.โ
GPT์ ๋ต์ ๋๋ต ์ด๋ฐ ์์ด์์ต๋๋ค. (์์ฝ)
- Retrieval: Recall@K, Precision@K, MRR, nDCG ๋ฑ
- Generation: ์ ๋ต์ฑ, ๊ทผ๊ฑฐ์ถฉ์ค๋, ์ธ์ฉ ์ ํ๋, ์์ ์ฑ ๋ฑ
- UX/์ด์: Latency, Success rate, Deflection, Cost per query ๋ฑ
- Safety: PII, ํ๋กฌํํธ ์ธ์ ์ , ์ ํด ์ฝํ ์ธ , ์ด๋ทฐ์ง ๋์ ๋ฑ
๋ด์ฉ๋ง ๋ณด๋ฉด ํ๋ฆฐ ๋ง์ด ํ๋๋ ์์ต๋๋ค.
์ค์ ๋ก๋ RAG ๋
ผ๋ฌธ/๋ฌธ์์์ ์์ฃผ ๋ณผ ์ ์๋ ๊ตฌ์ฑ์
๋๋ค.
๋ฌธ์ ๋,
- โ์ฐ๋ฆฌ ์๋น์ค์ ๋ฐ๋ก ๋ถ์ฌ ์ธ ์ ์๋ ํ๊ฐํโ๋ ์๋๋ผ๋ ์ ์ ๋๋ค.
- ๊ฒฐ๊ตญ ์งํ๋ฅผ ๋ค์ ๊ณ ๋ฅด๊ณ , ์ ์๋ฅผ ๋ค์ ์ฐ๊ณ , ํฉ๊ฒฉ์ ์ ๋ค์ ์ก๋ ์ผ์ ์ ๊ฐ ํด์ผ ํฉ๋๋ค.
์ ๋ฆฌํ๋ฉด,
Before: ๊ต๊ณผ์์ ๊ฐ๋ ์ ์ป์์ง๋ง,
โ์ค์ ํ๋ก์ ํธ์ ๋ถ์ฌ ์ธ ์ ์๋ ํ๋ ์์ํฌโ๋ ์๋ ์ํ.
1-2. After โ GPT์๊ฒ โํ๋กฌํํธ ์ค๊ณโ๋ฅผ ๋จผ์ ์ํจ ๋ฒ์
์ด๋ฒ์๋ ์ ๊ทผ์ ์์ ํ ๋ฐ๊ฟ๋ดค์ต๋๋ค.
Q. โRAG ์์คํ ํ๊ฐ๋ฅผ ์ํ ํ๋ ์์ํฌ๋ฅผ ๋ง๋ค๊ณ ์ถ์ต๋๋ค.
๋จผ์ ์ด ์์ ์ ์ต์ ํ๋ ํ๋กฌํํธ๋ฅผ ์ค๊ณํด ์ฃผ์ธ์.โ
์ด๋ GPT์๊ฒ ๋งก๊ธด ์ญํ ์
โ์ง์ ์ค๋ช
์โ๊ฐ ์๋๋ผ โํ๊ฐ ํ๋ ์์ํฌ ์ค๊ณ์โ์์ต๋๋ค.
GPT๊ฐ ๋จผ์ ๋ง๋ค์ด ์ค ๊ฒ์ โํ๊ฐ ํ๋ ์์ํฌ ํ
ํ๋ฆฟ์ ๋ง๋๋ ํ๋กฌํํธโ์์ต๋๋ค.
๊ตฌ์กฐ๋ง ์์ฝํ๋ฉด ๋๋ต ์ด๋ฐ ํํ์
๋๋ค.
- ์ญํ (Role): RAG/ํ์ด๋ธ๋ฆฌ๋ ์ฑ๋ด ํ๊ฐ ์คํ์
- ์
๋ ฅ(Input)
- {TEMPLATE}: ํฉ์๋ ํ๊ฐ ํ๋ ์์ํฌ ํ ํ๋ฆฟ
- {SYSTEM_DESC}: ์ค์ ํ๊ฐ ๋์ ์์คํ ์ค๋ช (๋๋ฉ์ธ, ์ฑ๋, ์ ์ฑ , ์คํ ์กฐ๊ฑด ๋ฑ)
- ์ถ๋ ฅ(Output)
- ํ๊ฐ ์ค์ฝ์ด์นด๋(ํ)
- ์คํจ ์ ํ ๋ถ๋ฅํ
- ํ๊ฐ ๋ฐ์ดํฐ์ ์ค๊ณ
- A/B ์คํ ์ค๊ณ ์์ฝ
- ์คํ ์ฒดํฌ๋ฆฌ์คํธ
- ๋ฆฌ์คํฌ Top3 & ์ด๋ฒ ์ฃผ ์ก์ Top3
์ฆ, GPT์๊ฒ ์ด๋ ๊ฒ ๋งํ ์ ์ ๋๋ค.
โRAG๋ฅผ ์ ํ๊ฐํ๋ ์ฌ๋์ด ๋๋ค๋ฉด,
์ด ์ ๋๋ ๊ธฐ๋ณธ์ผ๋ก ๋ง๋ค์ด์ผ ํ์ง ์๊ฒ ์ต๋๊น?โ
๊ทธ๋ค์ ๋จ๊ณ์์,
GPT๊ฐ ์ค๊ณํ ์ด ํ๋กฌํํธ๋ฅผ ์ค์ ํ๋ก์ ํธ ๋งฅ๋ฝ(๊ฒ์ ๋๋ฉ์ธ CSยทAI ์ฑ๋ด)์ ๊ทธ๋๋ก ์ ์ฉํ์ต๋๋ค.
๊ทธ๋ฌ์ ์ด๋ฒ์๋ ์ฒ์๋ถํฐ โ๋ฐ๋ก ์ค์ ์ ์ธ ์ ์๋ ํ๊ฐ ์ฐ์ถ๋ฌผโ์ด ์ถ๋ ฅ๋์ต๋๋ค.
1-3. After ๊ฒฐ๊ณผ๋ฌผ ์ค๋ ์ท โ โ๋ฐ๋ก ์ฐ๋ ์ค์ฝ์ด์นด๋โ
์ค์ ๊ฒฐ๊ณผ๋ฌผ์ ๋งค์ฐ ๊ธธ์ง๋ง,
ํต์ฌ๋ง ๋ณด์ฌ๋๋ฆฌ๋ฉด ๋๋ต ์ด๋ฐ ํํ์
๋๋ค.
🔎 ์ถ๋ณ ๋ํ ์งํ ์ผ๋ถ ๋ฐ์ท
| ์ถ | ์งํ๋ช | ์ ์ | ํฉ๊ฒฉ์ ์์ |
|---|---|---|---|
| Retrieval | Evidence Hit@5 | ์ ๋ต ๊ทผ๊ฑฐ ๋ฌธ์๊ฐ Top-5์ ํฌํจ๋ ๋น์จ | Hit@5 โฅ 0.85 |
| Grounding | Hallucination Rate | ๊ทผ๊ฑฐ ์์ด ์ ์ฑ /์ ์ฐจ๋ฅผ ๋จ์ ํ ์๋ต ๋น์จ | โค 3% |
| Answer ํ์ง | Policy Correctness | ํ๋ถ/์ ์ฌ ๋ฑ ์ ์ฑ ์๋ต์ ์ ํฉ์ฑ | โฅ 0.98 |
| UXยท์ด์ | Deflection Rate | โ์ ๋ตโ ๊ธฐ์ค ํฐ์ผ ์์ด ํด๊ฒฐ๋ ์ธ์ ๋น์จ | โฅ 0.35 (์ด๊ธฐ ์ด์ ๊ธฐ์ค) |
| Safety | Security Abuse Refusal | ๋ถ์ ํ์/ํดํน ์ ๋ ์์ฒญ์ ๊ฑฐ์ ํ ์๋ต ๋น์จ | โฅ 0.99 |
์ด ํ ์ด๋ธ์ ์ค์ํ ์ ์:
- ๊ฒ์ CS ๋งฅ๋ฝ์ ๋ง๋ ์งํ + ์ ์ + ํฉ๊ฒฉ์ ์ด ํ ๋ฒ์ ์กํ ์๊ณ
- โ์ด๋์ ์์ฃผ ํ๋ฆฌ๋์งโ, โ๋ฌด์์ ๋จผ์ ๋ชจ๋ํฐ๋งํด์ผ ํ๋์งโ๊ฐ
์ด๋ฏธ ์ค๊ณ๋ ์ํ๋ก ๋์จ๋ค๋ ๊ฒ์ ๋๋ค.
๊ทธ๋์ ์ด ๊ฒฐ๊ณผ๋
- ์ ๋จธ๋ฆฟ์ ์ ๋ฆฌ โ ๋ฉ๋ชจ โ ์์ โ ๋ฌธ์โฆ ๊ณผ์ ์ ์๋ตํ๊ณ ,
- ๊ณง๋ฐ๋ก ๋์๋ณด๋ ๊ธฐํ & ๋ผ๋ฒจ๋ง ์ค๊ณ ๋จ๊ณ๋ก ๋์ด๊ฐ ์ ์๊ฒ ํด์ค๋๋ค.
โป ์ค์ ๋ก๋ ์ค์ฝ์ด์นด๋, ์คํจ ์ ํ ๋ถ๋ฅํ, ๋ฐ์ดํฐ์ ์ค๊ณ, A/B ์ค๊ณ ๋ฑ
๋ชจ๋ ์ฐ์ถ๋ฌผ์ด ํจ์ฌ ๊ธธ์ต๋๋ค.
์ ์ฒด ์ ๋ฌธ์ ๊ธ ํ๋จ โ๋ถ๋กโ์ ๊ตฌ์กฐ๋ง ๋ง๋ค์ด ๋์์ต๋๋ค.
(ํ์ํ์ ๋ถ์ ๊ทธ๋๋ก ๋ณต๋ถํด์ ์ฐธ๊ณ ํ์๋ฉด ๋ฉ๋๋ค.)
1-4. Before/After์์ ๋ฌ๋ผ์ง ๊ฒ๋ค
ํ ์ค๋ก ๋น๊ตํ๋ฉด ์ด๋ ์ต๋๋ค.
- Before:
- โRAG ํ๊ฐ ์งํ๊ฐ ๋ญ๊ฐ ์๋์งโ๋ ์๊ฒ ๋์ง๋ง,
- ๊ฒฐ๊ตญ ๋ด๊ฐ ๋ค์ ๊ตฌ์กฐ๋ฅผ ์ง์ผ ํ๋ ์ํ
- After:
- โ์ฐ๋ฆฌ ์๋น์ค์ ๋ง๋ ํ๊ฐํ/์คํ ์ค๊ณ/์ฒดํฌ๋ฆฌ์คํธ๊น์งโ
- ํ ๋ฒ์ ๋ฝํ ๋์ค๋ ์ํ
- Before:
๊ทธ๋ฆฌ๊ณ ์ด ๋ณํ๋,
๋ชจ๋ธ์ ๋ฐ๊พผ ๊ฒ๋, ์ฌ๋์ ๋ฐ๊พผ ๊ฒ๋ ์๋๋ผ
โ๊ทธ๋ฅ ์ง๋ฌธํ๋โ vs โํ๋กฌํํธ ์ค๊ณ๋ถํฐ ๋งก๊ฒผ๋โ
์ด ์ฐจ์ด์์ ๋์์ต๋๋ค.
ย 2. ์ธ์ ๋ ๊ทธ๋ฅ ์ง๋ฌธ๋ง ํด๋ ๋๋๊ฐ
์ฌ๊ธฐ๊น์ง ์ฝ์ผ๋ฉด
โ์์ผ๋ก๋ ๋ชจ๋ ์์
์ ๋ค ์ด๋ ๊ฒ ํด์ผ ํ๋?โ
๋ผ๋ ์๊ฐ์ด ๋์ค ์ ์์ต๋๋ค.
์ ๊ธฐ์ค์ ์ด๋ ์ต๋๋ค.
❌ ๊ตณ์ด ์์ง๋์ด๋ง๊น์ง ์ ํด๋ ๋๋ ๊ฒฝ์ฐ
- ๋จ๋ฐ์ฑ ์ ๋ณด ์กฐํ
- ์ค๋ ์ ์ฌ ๋ฉ๋ด ๊ฐ์ ๊ฐ๋ฒผ์ด ์ง๋ฌธ
- ์งง์ ๋ฌธ์ฅ ๋ค๋ฌ๊ธฐ, ํ๋ ๋ฌธ๋จ ์์ฝ
โ ๊ทธ๋ฅ ์์ ๋กญ๊ฒ ์ง๋ฌธํด๋ ์ถฉ๋ถํฉ๋๋ค.
⭕ ํ๋กฌํํธ ์์ง๋์ด๋ง์ด ํ์คํ ๋จนํ๋ ๊ฒฝ์ฐ
- ๋น์ทํ ์์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ ๊ฒฝ์ฐ
- ์ ํ๋ยท์ฌํ์ฑ์ด ์ค์ํ ๊ฒฝ์ฐ (์งํ/์ ์ฑ /๊ณ์ฝ/CS ๋ฑ)
- ํ ์ฐจ์์์ ํ๋กฌํํธ/๊ฒฐ๊ณผ๋ฌผ์ ๊ณต์ ํด์ผ ํ๋ ๊ฒฝ์ฐ
์ด๋๋ ํ ๋ฒ๋ง ์ ๋๋ก ์ค๊ณํด๋๋ฉด,
๊ทธ ๋ค๋ก๋ โ๋ + ํ์ ์๊ฐโ์ด ๊ฐ์ด ์ค์ด๋ญ๋๋ค.
ย 3. ๋ง๋ฌด๋ฆฌ โ ์ค๊ณ๋ฅผ โ๋๊ฐ ํ๋๋โ์ ๋ฌธ์
์ ๋ฆฌํ๋ฉด, ํ๋กฌํํธ ์์ง๋์ด๋ง์
- ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ ์์ธก ๊ฐ๋ฅํ๊ฒ ์ป๊ธฐ ์ํ ์ค๊ณ์ด๊ณ
- ๋ฐ๋์ ์ฌ๋์ด ๋ค ํ ํ์๋ ์๋ค๋ ์ ์ด ์ค์ํฉ๋๋ค.
์์ฆ ๋ฐฉ์์ ์ด๋ฐ ๋๋์ ๊ฐ๊น์ต๋๋ค.
ย โGPT์ผ,
ย ์ด ์์
์ ๊ฐ์ฅ ์ ์ํํ ์ ์๋ ํ๋กฌํํธ๋ฅผ
ย ๋จผ์ ์ค๊ณํด ์ค.โ
์ฌ๋์ ์๊ตฌ์ฌํญ๊ณผ ๋งฅ๋ฝ๋ง ์ ์ ๋ฌํ๊ณ ,
์ค์ ํ๋กฌํํธ ๊ตฌ์กฐยทํฌ๋งทยท์ํ ์ค๊ณ๋ GPT์๊ฒ ๋๊ธฐ๋ ์ชฝ์ผ๋ก ํ๋ฆ์ด ๋ฐ๋๊ณ ์์ต๋๋ค.
ํ๋กฌํํธ ์์ง๋์ด๋ง์ ์ด์ ํน์ ์ง๊ตฐ์ ์ ๋ฌธ ๊ธฐ์ ์ด๋ผ๊ธฐ๋ณด๋ค, โAI๋ฅผ ๋ด ๋๊ตฌ๋ก ๋ง๋ค๊ณ ์ถ์ ์ฌ๋์ด๋ผ๋ฉด ๋๊ตฌ๋ ๊ฐ์ ธ๊ฐ ์ ์๋ ์ค๊ณ ์ต๊ดโ์ ๊ฐ๊น๋ค๋ผ๊ณ ๋ณด์ฌ์ง๋๋ค.
์ด์ ย ํ๋กฌํํธ ์์ง๋์ด๋ง์ ๊ณ ๋ฏผ๋ง๊ณ GPT์๊ฒ ๋งก๊ธฐ์ธ์.
📘๋ถ๋ก: RAG ํ๊ฐ ์ ์ฒด ์์
📎 ๋ถ๋ก A. RAG ํ๊ฐ โ Before Q/A ์ ๋ฌธ
Q:
RAG ์ฑ๋ฅ ํ๊ฐ ๊ธฐ์ค ์๋ ค์ค.
A:
RAG ์ฑ๋ฅ ํ๊ฐ๋ ๋ณดํต (1) ๊ฒ์์ด ์ ๋๋์ง, (2) ๋ต๋ณ์ด ๊ทผ๊ฑฐ์ ๋ถ์ด์๋์ง, (3) ์ด์ ํ์ง์ด ๊ด์ฐฎ์์ง 3์ถ์ผ๋ก ๋ด ๋๋ค. (์งํ๋ ๋ง์๋ฐ ๋์๋ณด๋๋ ํ ์ฅ์ด์ฃ โฆ 😅)
1) Retrieval (๊ฒ์ ํ์ง)
- Recall@K / Hit rate@K: ์ ๋ต ๊ทผ๊ฑฐ ๋ฌธ์๊ฐ Top-K์ ๋ค์ด์๋์ง
- Precision@K: Top-K๊ฐ โ์ ๋ต์ ๋์ ๋๋ ๋ฌธ์โ๋ก ์ผ๋ง๋ ๊นจ๋ํ์ง
- MRR / nDCG: ์ ๋ต ๊ทผ๊ฑฐ๊ฐ ์ผ๋ง๋ ์์ ๋ญํฌ๋๋์ง
- Chunk ํ์ง ์งํ(์ ์ฑ ํฌํจ): chunk ๊ธธ์ด/์ค๋ณต/๋ ธ์ด์ฆ, ์ฟผ๋ฆฌ-๋ฌธ์ ๋งค์นญ ์ ํฉ๋
2) Grounded Generation (์์ฑ ํ์ง: ๊ทผ๊ฑฐ ๊ธฐ๋ฐ)
- Answer Correctness (์ ๋ต์ฑ): ์ง๋ฌธ์ ๋ํ ์ต์ข ๋ต์ด ๋ง๋์ง
- Faithfulness / Groundedness (๊ทผ๊ฑฐ์ถฉ์ค๋): ์ ๊ณต๋ ์ปจํ ์คํธ ๋ฐ โ์ถ์ธกโ์ด ์์๋์ง(=ํ๊ฐ)
- Citation Accuracy (์ธ์ฉ ์ ํ๋): ์ธ์ฉ/์ถ์ฒ๊ฐ ์ค์ ์ฃผ์ฅ๊ณผ ์ผ์นํ๋์ง
- Completeness (์ถฉ๋ถ์ฑ): ํ์ํ ํญ๋ชฉ์ ๋น ์ง์์ด ๋ตํ๋์ง
3) End-to-End UX & Ops (์ด์/๊ฒฝํ)
- Latency (p50/p95): ์๋ต ์๊ฐ(ํ๊ท ๋ณด๋ค p95๊ฐ ์ค์ ์ฒด๊ฐ)
- Success rate: ์ ์ ์๋ต ๋น์จ(ํ์์์/์๋ฌ/๋น ๋ต ์ ์ธ)
- Deflection / Task success: ์ฌ์ฉ์ ๋ฌธ์ ํด๊ฒฐ๋ก ์ด์ด์ก๋์ง(์ ํ/์ฌ๋ฌธ์์จ)
- Cost per query: ์ฟผ๋ฆฌ๋น ๋น์ฉ(ํ ํฐ+๊ฒ์ ์ธํ๋ผ ํฌํจ)
- Stability: ๋ฐฐํฌ ํ ํ์ง ๋๋ฆฌํํธ(๋ฐ์ดํฐ ๋ณ๊ฒฝ/์์ธ ๊ฐฑ์ /๋ชจ๋ธ ์ ๋ฐ์ดํธ ์ํฅ)
4) Safety & Robustness (ํ์ ์)
- PII/๋ณด์ ์๋ฐ๋ฅ , ํ๋กฌํํธ ์ธ์ ์ ์ทจ์ฝ์ฑ, ์ ํด/๊ธ์น ์๋ต๋ฅ
- Adversarial ์ฟผ๋ฆฌ ์ฑ๋ฅ(์ ๋งคํ ์ง๋ฌธ/ํจ์ ์ง๋ฌธ/๊ทผ๊ฑฐ ๋ถ์กฑ ์ํฉ)
์ค๋ฌด์์ ํํ ๊ฒฐ๋ก (์ข์ ์ /๋์ ์ )
- ์ข์ ์ : โ๊ฒ์(Recall) + ๊ทผ๊ฑฐ์ถฉ์ค๋(Faithfulness) + ์ง์ฐ(p95)โ๋ง ์ก์๋ ๋๋ค์ ๋ฌธ์ ๊ฐ ์ด๋์ ์๊ธฐ๋์ง ๋ณด์ ๋๋ค.
- ๋์ ์ : ์งํ๋ฅผ ๋๋ฆฌ๋ฉด ๋ณด๊ณ ์๋ ํ์ฑํด์ง์ง๋ง, ์ฐ์ ์์๋ ๋ ํท๊ฐ๋ฆฝ๋๋ค(โ์ธก์ ์ ํ๋๋ฐ ๊ฐ์ ์ด ์ ๋จโ ํจ์ ).
📎 ๋ถ๋ก B. RAG ํ๊ฐ โ โํ๋กฌํํธ ์ค๊ณโ ์์ฒญ ์ ๋ฌธ
RAG ์์คํ ํ๊ฐ๋ฅผ ์ํ ํ๋ ์์ํฌ๋ฅผ ๋ง๋ค๊ณ ์ถ์ต๋๋ค. ๋จผ์ ์ด ์์ ์ ์ต์ ํ๋ ํ๋กฌํํธ๋ฅผ ์ค๊ณํด ์ฃผ์ธ์.
📎 ๋ถ๋ก C. RAG ํ๊ฐ โ ์ค๊ณ๋ ํ๋กฌํํธ ์ ๋ฌธ
๋น์ ์ โ๊ฒ์ ํ์ด๋ธ๋ฆฌ๋(CSยทAI) ์ฑ๋ดโ์ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ๋ง๋๋ ํ๊ฐ ๋ฆฌ๋์ ๋๋ค. ๋ชฉํ๋ โRAG+LLM ๋ต๋ณโ๊ณผ โRule/FAQ/ํฐ์ผ ํ๋ก์ฐโ๊ฐ ์์ธ ์ฑ๋ด์ ์ค๋ฌด์์ ์ด์ยท๊ฐ์ ํ ์ ์๋๋ก, ๋ฐ๋ก ๋ณต๋ถ ๊ฐ๋ฅํ โํ๊ฐ ํ ํ๋ฆฟ(ํ+๊ธฐ์ค+์ฒดํฌ๋ฆฌ์คํธ)โ์ ๋ง๋๋ ๊ฒ์ ๋๋ค. ### [๊ธฐ๋ณธ ์ปจํ ์คํธ(๊ฐ์ )] - ๋๋ฉ์ธ/์๋น์ค: ๊ฒ์ ๊ณ ๊ฐ์ผํฐ์ฉ ํ์ด๋ธ๋ฆฌ๋ ์ฑ๋ด(CS+AI) - ์ฌ์ฉ์ Top Tasks: 1) ๊ฒฐ์ /ํ๋ถ/๊ตฌ๋ (์ฒญ์ฝ์ฒ ํ, ๊ฒฐ์ ์ค๋ฅ) 2) ๊ณ์ /๋ณด์(๋ก๊ทธ์ธ, OTP, ํดํน ์์ฌ) 3) ์ด์ฉ์ ํ/์ ์ฌ(์ฌ์ /์ด์์ ๊ธฐ) 4) ์์ดํ /์ฌํ(๋ฏธ์ง๊ธ, ์๋ฉธ, ์ฐํธ) 5) ๋ฒ๊ทธ/์ ์์ฅ์ (๊ณต์ง/ํด๊ฒฐ๊ฐ์ด๋/ํฐ์ผ) 6) ์ด๋ฒคํธ/์ฟ ํฐ(์กฐ๊ฑด, ์ง๊ธ, ๊ธฐ๊ฐ) - ์ ๋ ฅ/์ถ๋ ฅ ์ธ์ด: ํ๊ตญ์ด(KOโKO), ๊ฒ์ ์ฉ์ด/์ฝ์ด/์คํ ๋ง์ - ์ง์์์ฒ: ๊ณต์ง/ํจ์น๋ ธํธ, ์ด์์ ์ฑ , ๊ฒฐ์ /ํ๋ถ ์ ์ฑ , ๊ณ์ /๋ณด์ ๊ฐ์ด๋, FAQ, GM ๋งค๋ด์ผ, CS ํฐ์ผ ๋ต๋ณ ํ ํ๋ฆฟ(์ต์ ์ฐ์ ) - ์ํคํ ์ฒ(์ผ๋ฐ์ ๊ฐ์ ): - Hybrid retrieval: BM25 + Vector + reranker, Top-k 5~10 - Chunking: 300~600 tokens, overlap 50~100, ๋ฉํ๋ฐ์ดํฐ(๋ฌธ์์ข ๋ฅ/๊ฒ์/์ง์ญ/๋ฒ์ /๊ฐ์ ์ผ) - Generator: LLM์ด ์ต์ข ๋ต๋ณ + โ๊ทผ๊ฑฐ ์ธ์ฉโ + ํ์ ์ ํฐ์ผ ์ ํ(๋งํฌ/ํผ) - ์ด์ ์ ์ฝ(๊ฐ์ค์น): - ์ ํ๋/์ ์ฑ ์ค์ 60% + ์ง์ฐ 25% + ๋น์ฉ 15% - ๋ชฉํ ์๋ต์๊ฐ: p50 2์ด / p95 6์ด - ์์ /์ ์ฑ ์๊ตฌ: - PII/๊ณ์ ์ ๋ณด ์์ฒญ ์ต์ํ(โ์คํฌ๋ฆฐ์ท/์ฃผ๋ฌธ๋ฒํธ/UIDโ ์์ง์ ๋จ๊ณยท๋ชฉ์ ๋ช ์) - ๋ถ์ ํ์/์ทจ์ฝ์ ์ ์ฉ/ํ๋ถ ๊ผผ์ ์ ๋ ๋ฑ ๊ธ์ง - ๋ฒ/๊ฒฐ์ ๊ด๋ จ ๋ฌธ๊ตฌ๋ ๊ทผ๊ฑฐ ๋ฌธ์ ๊ธฐ๋ฐ, ๋ถํ์ค ์ ์๋ด/ํฐ์ผ ์ ๋ - ๋น๊ต ์คํ ์ถ(๊ธฐ๋ณธ): ์ ๋ก์ท vs ํ๋กฌํํธ ์ค๊ณ(๊ฐ๋๋ ์ผ/์ถ๋ ฅํฌ๋งท/์ธ์ฉ ๊ฐํ) ### [์ฐ์ถ๋ฌผ ์๊ตฌ: ์งง๊ฒ, ํ์ง๋ง โ์ค๋ฌด์ฉโ์ผ๋ก] ์๋ 5๊ฐ๋ฅผ ๋ฐ๋์ ์ถ๋ ฅํ์ธ์(๋ถํ์ํ ๊ฐ๋ ์ค๋ช ๊ธ์ง). 1) โํ๊ฐ ์ค์ฝ์ด์นด๋(ํ)โ 1๊ฐ - ์ถ: Retrieval / Grounding / Answer ํ์ง / UXยท์ด์ / Safety - ๊ฐ ํญ๋ชฉ๋ณ: ์งํ๋ช , ์ ์, ๋จ์, ์ธก์ ๋ฒ(๋ก๊ทธ ๊ธฐ๋ฐ/๋ผ๋ฒจ๋ง), ํฉ๊ฒฉ์ (๊ธฐ๋ณธ Threshold), ์นํ ๊ฐ๋ฅ์ฑ(๋ฎ/์ค/๋) 2) โ์คํจ ์ ํ ๋ถ๋ฅํโ 1๊ฐ - ๊ฒ์ CS์ ํนํ๋ ์คํจ ์์ ํฌํจ(ํ๋ถ ์ ์ฑ , ์ ์ฌ ์ฌ์ , ์ด๋ฒคํธ ์กฐ๊ฑด ๋ฑ) 3) โํ๊ฐ ๋ฐ์ดํฐ์ ์ค๊ณโ ์์ฝ - Head/Torso/Longtail ๋น์จ ์ ์ - ์ต์ ๋ฌธ์/์ถฉ๋ ๋ฌธ์/์ ์ฌ ๋ฌธ์/๋น ๊ทผ๊ฑฐ(knowledge gap) ์ผ์ด์ค ํฌํจ 4) โ์คํ ์ค๊ณโ ์์ฝ(A/B) - ์ ๋ก์ท vs ํ๋กฌํํธ ์ค๊ณ ๋น๊ต ์ ํต์ ๋ณ์/๋ ๋ฆฝ๋ณ์/ํต์ฌ KPI ์ ์ - ํ๊ท(์ ๋ ๊นจ์ง๋ฉด ์ ๋๋ 30๊ฐ ํต์ฌ ์ผ์ด์ค) ์ ์ ๋ฐฉ์ ํฌํจ 5) ๋ง์ง๋ง์ ๋ฑ 8์ค: - ์ด๋ฒ ํ๋ ์์ํฌ์์ โ๊ฐ์ฅ ์ํํ ํจ์ 5๊ฐโ - โ์ฐ์ ์์ Top 3 ๊ฐ์ ์ก์ โ ์ถ์ธก์ด ํ์ํ ๋ถ๋ถ์ ์งํํ๋, ๊ฒฐ๊ณผ์ ์ํฅ ํฐ ๋ถํ์ค์ฑ 3๊ฐ๋ง โํ์ธ ํ์โ๋ก ๋์ ์ ์ผ์ธ์.
📎 ๋ถ๋ก D. ํ๊ฐ ์ค์ฝ์ด์นด๋ ์ ์ฒด ํ
โป ๋๋ฅด๋ฉด ํฌ๊ฒ ๋ณด์ ๋๋ค. ํ ์คํธ ํ๊ฐ ๊นจ์ ธ์ ์ด๋ฏธ์ง๋ก ์ฒจ๋ถํ๋ ์ํด ๋ฐ๋๋๋ค.
📎 ๋ถ๋ก E. ์คํจ ์ ํ ๋ถ๋ฅํ ์ ์ฒด
โป ๋๋ฅด๋ฉด ํฌ๊ฒ ๋ณด์ ๋๋ค. ํ ์คํธ ํ๊ฐ ๊นจ์ ธ์ ์ด๋ฏธ์ง๋ก ์ฒจ๋ถํ๋ ์ํด ๋ฐ๋๋๋ค.
📎 ๋ถ๋ก F. ํ๊ฐ ๋ฐ์ดํฐ์ / ์คํ ์ค๊ณ ์์ฝ ์ ๋ฌธ
ํ๊ฐ ๋ฐ์ดํฐ์ ์ค๊ณ ์์ฝ
- ๋ถํฌ(๊ถ์ฅ): Head 35% / Torso 45% / Longtail 20%
- ์ผ์ด์ค ๊ตฌ์ฑ(ํ์ ํฌํจ)
- ์ต์ ๋ฌธ์ ์ฐ์ : ์ต๊ทผ 30์ผ ๋ด ๊ณต์ง/์ ์ฑ ๊ฐ์ ๊ธฐ๋ฐ 20% ์ด์
- ์ถฉ๋ ๋ฌธ์ ์ธํธ: โ๊ตฌ์ ์ฑ vs ์ ์ ์ฑ โ, โ์๋ฒ/์ง์ญ๋ณ ์์ด ์ ์ฑ โ 10%
- ์ ์ฌ ๋ฌธ์ ํผ๋ ์ธํธ: ์ ๋ชฉ/ํค์๋ ์ ์ฌ(ํ๋ถ vs ๊ฒฐ์ ์ค๋ฅ, ์ ์ฌ vs ๋ณดํธ์กฐ์น) 10%
- Knowledge Gap(๋น ๊ทผ๊ฑฐ): ๋ฌธ์์ ์๋ ๋ฌธ์(๋ฏธ๊ณต๊ฐ ์ด๋ฒคํธ/๊ฐ๋ณ ๊ณ์ ์ํ) 10%
- ์คํ/์ฝ์ด/์์ด: โใ ใ โ, โํ๋ถใฑ?โ, โํต์์ฌโ, โOTPํ๊นโ ๋ฑ ๋ณํ 15%
- ๊ณ ์ํ ๋๋ฉ์ธ ๊ณผ๋ํ์ง: ๊ฒฐ์ /ํ๋ถยท๊ณ์ /๋ณด์ยท์ ์ฌ ํฉ์ฐ 50% ์ด์(์ ์ฑ /๋ฒ ๋ฆฌ์คํฌ ๋๋ฌธ)
- ๋ผ๋ฒจ ์คํค๋ง(์ต์): ์ ๋ต์ ํ(FAQ/์ ์ฑ /RAG/ํฐ์ผ์ ํ), ์ ๋ต๊ทผ๊ฑฐ(๋ฌธ์ID+์คํฌ), ํต์ฌ ์ฃผ์ฅ ์ฒดํฌ๋ฆฌ์คํธ(๊ธฐ๊ฐ/์กฐ๊ฑด/์์ธ/ํ์์ ๋ณด), ์์ (PII/์ ์ฉ/๋ฒ)
- ์ํ ์ ๊ฐ์ด๋(์ด๊ธฐ): ์คํ๋ผ์ธ 400~800 / ํ๊ท 30 / ์ ์ฑ(์์ ) 80~150
์คํ ์ค๊ณ ์์ฝ(A/B: ์ ๋ก์ท vs ํ๋กฌํํธ ์ค๊ณ)
- ๋
๋ฆฝ๋ณ์(A/B)
- A(์ ๋ก์ท): ์ต์ ์์คํ ์ง์ + ๊ธฐ๋ณธ ์ธ์ฉ๋ง ํ์ฉ
- B(ํ๋กฌํํธ ์ค๊ณ): (1) ์ถ๋ ฅ ํฌ๋งท ๊ณ ์ (์์ฝโ๋จ๊ณโํ์์ ๋ณดโ์ ํ) (2) ์ธ์ฉ ๊ฐ์ (ํต์ฌ ์ฃผ์ฅ๋ง๋ค) (3) ์ ์ฑ /๋ฒ/๋ณด์ ๊ฐ๋๋ ์ผ (4) Knowledge gap ์ฒ๋ฆฌ (5) ํฐ์ผ ์ ํ ํธ๋ฆฌ
- ํต์ ๋ณ์(๊ณ ์ )
- ๋์ผ ๋ชจ๋ธ/์จ๋/ํ ํฐ ์ ํ, ๋์ผ ๋ฆฌํธ๋ฆฌ๋ฒ(BM25+Vec+rerank, k=5~10), ๋์ผ ์ฒญํน/๋ฉํํํฐ, ๋์ผ ์ง์๋ฒ ์ด์ค ์ค๋ ์ท, ๋์ผ ์บ์ ์ ์ฑ
- ํต์ฌ KPI(์ฐ์ ์์)
- Policy Correctness, Hallucination Rate, PII Minimization (์ ํยท์ ์ฑ )
- p50/p95 Latency (์ง์ฐ)
- Cost/Session (๋น์ฉ)
- ๋ณด์กฐ: Task Success, Citation Precision/Coverage, Escalation Accuracy
- ํ์ ๋ฐฉ์(์ถ์ฒ)
- ์คํ๋ผ์ธ: ๋์ผ ํ๊ฐ์ ์์ ์ค์ฝ์ด์นด๋ ๋น๊ต(์ ๋ขฐ๊ตฌ๊ฐ/์ ์์ฑ)
- ์จ๋ผ์ธ(๊ฐ๋ฅ ์): 10~20% ํธ๋ํฝ A/B, โ์ ๋ต ๋ผ๋ฒจ ํ๋ณธโ์ผ๋ก Deflection์ ์ ๋ต์ผ ๋๋ง ๊ณ์ฐ
- ํ๊ท(์ ๋ ๊นจ์ง๋ฉด ์ ๋๋ 30๊ฐ) ์ ์ ๋ฐฉ์
- Top Task๋ณ 5~6๊ฐ์ฉ(๊ฒฐ์ /๋ณด์/์ ์ฌ ์ฐ์ ), ์ต์ ์ ์ฑ 1๊ฐ + ์ถฉ๋ 1๊ฐ + ๋น๊ทผ๊ฑฐ 1๊ฐ ํฌํจ
- โ๋ฒ/๊ฒฐ์ ๋ฌธ๊ตฌ ๋จ์ ๊ธ์งโ, โ์ ์ฌ ์ฌ์ ์ถ์ ๊ธ์งโ, โPII ์ต์์์งโ ๊ฐ์ ๊ฐ๋๋ ์ผ ํ๊ท 10๊ฐ๋ฅผ ๋ณ๋ ํธ๋์ผ๋ก ๊ณ ์
- ๋ฆด๋ฆฌ์ฆ๋ง๋ค 30๊ฐ ์ ์, ์๊ณ์น ๋ฏธ๋ฌ ์ ๋กค๋ฐฑ(๊ฒ์ ๋ฐธ๋ฐ์ค ํจ์น์ฒ๋ผ์)
- ๋
๋ฆฝ๋ณ์(A/B)
ํจ์ 1: โDeflection ์์นโ๋ง ๋ณด๊ณ ์ข์ํ๋ค๊ฐ, ์ ๋ต ๊ฒ์ฆ ์์ด CS ํญํ(๊ฐ์ง ํด๊ฒฐ) ํฐ์ง๋๋ค.
ํจ์ 2: ์ต์ /์ถฉ๋ ๋ฌธ์ ์ฒ๋ฆฌ๋ฅผ ์ ํ๋ฉด, ํ๋ถยท์ ์ฌ์์ ํ ๋ฒ์ ์ ๋ขฐ๊ฐ ์ฆ๋ฐํฉ๋๋ค.
ํจ์ 3: ์ธ์ฉ์ด โ์๊ธฐ๋งโ ํ๋ฉด ๋๋ค๊ณ ์ฐฉ๊ฐํ๋ฉด, Citation Precision์์ ๋ฐ๋ก ๊ฑธ๋ฆฝ๋๋ค.
ํจ์ 4: Knowledge gap์์ ๋จ์ ํ ์ค์ด๋ฉด, ๋ฒ/๋ณด์/๊ฒฐ์ ๋ฆฌ์คํฌ๊ฐ ์ฆ์ ํ์คํ๋ฉ๋๋ค.
ํจ์ 5: p95 ์ต์ ํ ์์ด p50๋ง ๋ง์ถ๋ฉด, ํผํฌ ํ์์ ์ฑ๋ด์ด โ๋ก๋ฉ์ฐฝ NPCโ๊ฐ ๋ฉ๋๋ค.
์ก์
1: ๊ณ ์ํ(๊ฒฐ์ /๋ณด์/์ ์ฌ) 150์ผ์ด์ค ๊ณผ๋ํ์ง + ํ๊ท30 ๊ณ ์ ๋ถํฐ ๋ง๋์ธ์.
์ก์
2: โ์ต์ ์ฐ์ +์ถฉ๋ ์ธ์ง+๋จ์ ๊ธ์ง+ํฐ์ผ ํธ๋ฆฌโ๋ฅผ ํ๋กฌํํธ/๋ฃฐ๋ก ํ๋์ฝ๋ฉํ์ธ์.
์ก์
3: Citation Precision/Coverage ๋ผ๋ฒจ๋ง์ ๋จผ์ ๋ถ์ฌ์, ๊ฐ์ ๋ฐฉํฅ์ ๋ฐ์ดํฐ๋ก ๊ณ ์ ํ์ธ์.
ํ์ธ ํ์(์ํฅ ํฐ ๋ถํ์ค์ฑ 3๊ฐ)
- ํฐ์ผ ์ ํ ์ฑ๋(์นํผ/์ธ๊ฒ์/CSํด)์์ ํ์ ์์ง ํ๋(UID/์ฃผ๋ฌธ๋ฒํธ/์คํฌ๋ฆฐ์ท)์ ์์ง ํ์ฉ ๋ฒ์(์ ์ฑ /๋ฒ๋ฌด).
- โ์ ๋ต Deflectionโ์ ์ด์ ๋ชฉํ์น(์: 35% vs 50%)์, ์คํจ ์ ํ์ฉ ๊ฐ๋ฅํ CS ๋ฆฌ์คํฌ ํ๋.
- ์ง์๋ฒ ์ด์ค์ ๊ฐฑ์ ์ฃผ๊ธฐ/๋ฒ์ ๊ด๋ฆฌ ์ฒด๊ณ(๊ณต์งยท์ ์ฑ ๊ฐ์ ์ด ์ค์๊ฐ์ธ์ง, ๋ฐฐ์น์ธ์ง) ๋ฐ โ์ต์ ํ์ โ์ ๋จ์ผ ์ง์ค์์ฒ(SSOT).



