서문
이전 글에서 Safety 정책을 개념 수준으로 다뤘지만,
실제 서비스 도입 시에는 정책의 깊이와 디테일이 서비스 품질에 직접적인 영향을 줍니다.
제가 처음 Safety 정책을 접한 건 CS 챗봇 구축 시 Fallback 시나리오 설계 단계였습니다.
그 당시, 비윤리 발화나 악성 발화를 걸러내는 기본 카테고리를 Fallback으로 제공했고,
이것이 나중에 LLM 챗봇에서 말하는 Safety 정책과 동일하다는 것을 뒤늦게 알게 됐죠.
이러한 기본적인 스펙은 내부적으로 #Safety 기본 스펙으로 정의했고,
프로젝트 특성에 맞춰 #Safety 특화 스펙을 추가로 정의하였습니다.
두 가지 모두 정의 및 구축이 필요하며,
LLM 챗봇 도입 당시 저는 특히 Safety 특화 스펙 설계에 집중했습니다.
Safety 정책의 목적
챗봇 도입 시 선택이 아닌 필수 요소로, 사용자와 서비스 공급자 모두를 보호합니다.
- 리스크 최소화: 법적 문제, 브랜드 이미지 손상, 사용자 피해 방지
- 사용자 신뢰 확보: 안전하게 설계된 챗봇은 재방문·재사용 의도를 높임
- 내부 규제 준수: 게임, 금융, 의료 등 도메인별 필수 규제 대응
Safety 기본 스펙
CS 챗봇 시절부터 운영해 온 범용 안전 정책입니다.
대부분의 서비스에 적용 가능하며, LLM 도입 후에도 유지·보완됩니다.
특히 ‘아동/청소년 성착취’, ‘혐오 & 차별’ 등과 같은 민감하고 주요한 주제는 별도로 심도있게 정책 구성 및 검토, 사후 테스트가 필요합니다.
카테고리 | 설명 |
---|---|
폭력 범죄 | 살인, 폭행 등 물리적 위협 발언 |
비폭력 범죄 | 사기, 절도, 해킹 등 |
성범죄 | 성희롱, 성폭행, 불법 촬영 등 |
아동/청소년 성착취 | 미성년자 관련 성적 발언 |
명예 훼손 | 허위사실 유포 |
전문적 조언 | 법률, 의료, 금융 등 전문 자문 |
개인정보 & 사생활 | 주민번호, 계좌번호, 주소, 전화번호 등 |
지식재산 & 저작권 | 불법 복제, 저작물 무단 사용 |
무차별적/대량살상무기 | 폭발물, 생화학무기 등 |
혐오 & 차별 | 인종, 성별, 종교 등 차별 발언 |
자살 & 자해 | 자해, 자살 시도 관련 발언 |
선거 & 정치적 편향 | 특정 정당·후보 지지/비방 |
선정성 & 성적 콘텐츠 | 노골적인 성적 묘사 |
부적절한 언어 & 폭언 | 욕설, 비속어 |
프롬프트 주입 공격 | 모델 조작 시도 |
Safety 특화 스펙
LLM 챗봇 기획에서 추가로 정의한 게임 서비스 전용 정책입니다.
카테고리 | 설명 |
---|---|
당사 가치 평가 | 회사에 대한 긍정/부정 평가 |
임직원·특정인 평가/인신 공격 | 특정인 비방 |
게임 서비스 가치 평가 | 품질·운영에 대한 평가 |
유료 재화 가치 평가 | 과금 정책 평가 |
유저·그룹 간 인신 공격 | 길드, 팀, 국가 등 단위 비난 |
운영 정책·CS 대응 발언 | 고객센터, 운영 정책 불만 |
게임 내 편법/금지 행위 | 버그, 어뷰징, 불법 프로그램 |
내부 개발 정보 문의 | 비공개 개발 진행·기술 문의 |
Safety 특화 스펙 사례 – 게임 내 편법/금지 행위 발언
허용: 공식 기능 설명, 이용 제한 기준 안내
금지: 매크로, 자동사냥, RMT, 버그 악용 등
✅ 허용 예시
질문 | 응답 |
---|---|
자동사냥은 지원돼? | 일부 콘텐츠에서는 공식 지원 자동 전투 기능이 있습니다. |
거래소 이용 조건은? | 특정 레벨 이상부터 거래소 이용이 가능합니다. |
버그 악용 신고는 어디서? | 홈페이지 고객센터를 통해 신고 가능합니다. |
⛔ 금지 예시
질문 | 유형 | 차단 방식 | 응답 예시 |
---|---|---|---|
매크로 없이 돌림판 못 돌려? | 편법 문의 | 프롬프트 차단 | 해당 표현은 사용할 수 없습니다. |
스킬 하나에 100만 원? | 비아냥 | 응답 차단 | 불편 사항은 고객센터로 접수 부탁드립니다. |
각신수도끼 팝니다 | 현금거래 | 프롬프트 차단 | 해당 표현은 사용할 수 없습니다. |
차단 방식 설계
프롬프트 차단 (Input Filtering)
- 입력 단계에서 금칙 카테고리 감지 → 메시지 삭제 + 차단 안내
- 예: “해당 표현은 사용할 수 없습니다.”
- 장점: 모델 호출 불필요, 속도 빠름
- 적용: 명확한 위반 키워드(예: ‘현금거래’, ‘매크로’)
응답 차단 (Output Filtering)
- 모델이 응답 생성 후, 위험 요소 포함 시 사전 정의 메시지로 대체
- 예:
사용자: “스킬 하나에 100만 원?”
→ LLM 생성 → “서비스 문의는 고객센터로 접수 부탁드립니다” 출력 - 장점: 문맥 기반 발언 필터링 가능
혼합 전략
- 고위험: 프롬프트 차단
- 중·저위험: 응답 차단
- 필요 시 계단식 필터링(프롬프트 → 응답 → 쿠션멘트) 설계
기획자의 고민과 역할
Safety 정책은 그냥 막는 것이 아니라,
브랜드 신뢰를 지키면서도 대화 흐름을 유지하는 설계입니다.
- 기본 스펙만 적용 시: 게임 특수 발화 반영 안 됨 → 특화 스펙 추가
- 딱딱한 차단 문구: 사용자 불만 증가 → 쿠션멘트 삽입
- 오탐/미탐 로그 분석: 차단 조건·문구·시나리오 지속 개선
결론
범용 스펙 + 특화 스펙은
서비스 도메인을 가장 잘 아는 기획자가 주도해야 하며,
LLM 서비스의 핵심 중 하나입니다.