1. 들어가며
앞선 글에서는 “컨텍스트를 어떻게 설계했는가”를 다뤘습니다.
하지만 프로젝트를 진행하며 다시 깨달은 건, 아무리 컨텍스트를 잘 짜도 배포 환경이 받쳐주지 않으면 안 된다는 사실이었습니다.
실제 경험을 예로 들어보겠습니다.
2차 테스트에서 정확도가 79%까지 수직 상승하며 “드디어 안정권이다”라고 안심했습니다. 그런데 3차 테스트에서는 빌드와 데이터가 동일했음에도 불구하고, 정확도가 67%로 급락했습니다. 당시 팀 분위기는 충격 그 자체였습니다.
2. 문제 발견
처음엔 모델의 성능 저하나 데이터 이슈를 의심했지만, 실제 원인은 전혀 다른 곳에 있었습니다. 바로 빠르게 진행된 배포 과정에서 발생한 관리 부재였습니다.
- 캐시 갱신 실패: 빌드는 동일했지만, 하루치 캐시가 남아 있어 새 지식이 반영되지 않음
- 빌더/운영 환경 불일치: RC와 Live 빌더에 각각 지식을 삽입했는데, 환경 간 불일치로 답변 공백 발생
- 지식 삭제 문제: 일부 항목(예: 프레임 관련)이 잘못 제거되며 답변 불가 상태 노출
즉, 모델 개선 문제가 아니라 운영 환경 관리의 허점이 서비스 품질을 무너뜨린 것이었습니다.
3. 해결 과정
론칭을 불과 며칠 앞둔 상황이라, 개발/운영/PM/기획이 모두 모여 긴급 논의를 진행했습니다. 그리고 두 개의 트랙으로 문제를 정리했습니다.
Track 1. 론칭 대응
- 컨텍스트 엔지니어링 기반으로 챗봇 응답 정확도 최대한 끌어올리기
- 문제된 세 가지 이슈(캐시·환경 불일치·지식 삭제) 즉시 보완 후 QA 진행
- 원칙: 론칭 후 버전 업데이트 시 임의 수정 금지 (롤백 기능 부재로 동일 리스크 재현 우려)
Track 2. 사후 대응
- 캐시 갱신 기능 – 자동·수동 병행 도입
- 빌더 버전 관리 – 빌드 버전별 프리징 및 배포 이력 관리
- 지식 기반(KB) 관리 – KB 등록/삭제 이력, RAG 활용 여부, 연결된 답변 예시까지 투명하게 관리
4. 성과
이 과정을 통해, 배포 관리의 중요성을 시스템 차원에서 각인할 수 있었습니다.
결과적으로 정확도는 다시 끌어올려, 안정적으로 마무리할 수 있었습니다.
- 정확도: 3차 67% → 최종 89%
- 운영 환경 안정화: 캐시·빌더·KB 관리 프로세스 확립
- 팀워크 개선: 배포와 운영까지 “하나의 제품 경험”이라는 인식이 공유됨
5. 교훈
이 경험에서 얻은 인사이트는 분명했습니다.
- 좋은 모델도 운영 환경에서 무너지면 끝이다.
- 배포 환경과 운영 설계는 단순 지원이 아니라, 사용자 경험을 결정짓는 핵심이다.
- PM과 기획자는 모델과 컨텍스트뿐 아니라 운영 환경까지 미리 챙겨야 한다.
1편에서 다룬 컨텍스트 설계가 챗봇의 ‘두뇌’를 만드는 과정이었다면,
이번 2편에서 다룬 배포 환경/운영 설계는 그 두뇌가 현실에서 제대로 작동하도록 하는 ‘신경망’을 세우는 과정이었습니다.
결국 챗봇은 모델-컨텍스트-운영 환경 이 세 박자가 맞아야만 제대로 작동합니다.
만약 본인이 PM 혹은 기획자라면, 놓치기 쉬운 배포와 운영 환경까지 반드시 점검하시길 권합니다.