실무에서 바로 쓰는 AI 챗봇 Safety 정책

서문

이전 글에서 Safety 정책을 개념 수준으로 다뤘지만,
실제 서비스 도입 시에는 정책의 깊이와 디테일이 서비스 품질에 직접적인 영향을 줍니다.

제가 처음 Safety 정책을 접한 건 CS 챗봇 구축 시 Fallback 시나리오 설계 단계였습니다.
그 당시, 비윤리 발화나 악성 발화를 걸러내는 기본 카테고리를 Fallback으로 제공했고,
이것이 나중에 LLM 챗봇에서 말하는 Safety 정책과 동일하다는 것을 뒤늦게 알게 됐죠.

이러한 기본적인 스펙은 내부적으로 #Safety 기본 스펙으로 정의했고,
프로젝트 특성에 맞춰 #Safety 특화 스펙을 추가로 정의하였습니다.
두 가지 모두 정의 및 구축이 필요하며,
LLM 챗봇 도입 당시 저는 특히 Safety 특화 스펙 설계에 집중했습니다.

Safety 정책의 목적

챗봇 도입 시 선택이 아닌 필수 요소로, 사용자와 서비스 공급자 모두를 보호합니다.

리스크 최소화: 법적 문제, 브랜드 이미지 손상, 사용자 피해 방지
사용자 신뢰 확보: 안전하게 설계된 챗봇은 재방문·재사용 의도를 높임
내부 규제 준수: 게임, 금융, 의료 등 도메인별 필수 규제 대응

Safety 기본 스펙

CS 챗봇 시절부터 운영해 온 범용 안전 정책입니다.
대부분의 서비스에 적용 가능하며, LLM 도입 후에도 유지·보완됩니다.
특히 ‘아동/청소년 성착취’, ‘혐오 & 차별’ 등과 같은 민감하고 주요한 주제는 별도로 심도있게 정책 구성 및 검토, 사후 테스트가 필요합니다.

카테고리	설명
폭력 범죄	살인, 폭행 등 물리적 위협 발언
비폭력 범죄	사기, 절도, 해킹 등
성범죄	성희롱, 성폭행, 불법 촬영 등
아동/청소년 성착취	미성년자 관련 성적 발언
명예 훼손	허위사실 유포
전문적 조언	법률, 의료, 금융 등 전문 자문
개인정보 & 사생활	주민번호, 계좌번호, 주소, 전화번호 등
지식재산 & 저작권	불법 복제, 저작물 무단 사용
무차별적/대량살상무기	폭발물, 생화학무기 등
혐오 & 차별	인종, 성별, 종교 등 차별 발언
자살 & 자해	자해, 자살 시도 관련 발언
선거 & 정치적 편향	특정 정당·후보 지지/비방
선정성 & 성적 콘텐츠	노골적인 성적 묘사
부적절한 언어 & 폭언	욕설, 비속어
프롬프트 주입 공격	모델 조작 시도

Safety 특화 스펙

LLM 챗봇 기획에서 추가로 정의한 게임 서비스 전용 정책입니다.

카테고리	설명
당사 가치 평가	회사에 대한 긍정/부정 평가
임직원·특정인 평가/인신 공격	특정인 비방
게임 서비스 가치 평가	품질·운영에 대한 평가
유료 재화 가치 평가	과금 정책 평가
유저·그룹 간 인신 공격	길드, 팀, 국가 등 단위 비난
운영 정책·CS 대응 발언	고객센터, 운영 정책 불만
게임 내 편법/금지 행위	버그, 어뷰징, 불법 프로그램
내부 개발 정보 문의	비공개 개발 진행·기술 문의

Safety 특화 스펙 사례 – 게임 내 편법/금지 행위 발언

허용: 공식 기능 설명, 이용 제한 기준 안내
금지: 매크로, 자동사냥, RMT, 버그 악용 등

✅ 허용 예시

질문	응답
자동사냥은 지원돼?	일부 콘텐츠에서는 공식 지원 자동 전투 기능이 있습니다.
거래소 이용 조건은?	특정 레벨 이상부터 거래소 이용이 가능합니다.
버그 악용 신고는 어디서?	홈페이지 고객센터를 통해 신고 가능합니다.

⛔ 금지 예시

질문	유형	차단 방식	응답 예시
매크로 없이 돌림판 못 돌려?	편법 문의	프롬프트 차단	해당 표현은 사용할 수 없습니다.
스킬 하나에 100만 원?	비아냥	응답 차단	불편 사항은 고객센터로 접수 부탁드립니다.
각신수도끼 팝니다	현금거래	프롬프트 차단	해당 표현은 사용할 수 없습니다.

차단 방식 설계

프롬프트 차단 (Input Filtering)

입력 단계에서 금칙 카테고리 감지 → 메시지 삭제 + 차단 안내
예: “해당 표현은 사용할 수 없습니다.”
장점: 모델 호출 불필요, 속도 빠름
적용: 명확한 위반 키워드(예: ‘현금거래’, ‘매크로’)

응답 차단 (Output Filtering)

모델이 응답 생성 후, 위험 요소 포함 시 사전 정의 메시지로 대체
예:
사용자: “스킬 하나에 100만 원?”
→ LLM 생성 → “서비스 문의는 고객센터로 접수 부탁드립니다” 출력
장점: 문맥 기반 발언 필터링 가능

혼합 전략

고위험: 프롬프트 차단
중·저위험: 응답 차단
필요 시 계단식 필터링(프롬프트 → 응답 → 쿠션멘트) 설계

기획자의 고민과 역할

Safety 정책은 그냥 막는 것이 아니라,
브랜드 신뢰를 지키면서도 대화 흐름을 유지하는 설계입니다.

기본 스펙만 적용 시: 게임 특수 발화 반영 안 됨 → 특화 스펙 추가
딱딱한 차단 문구: 사용자 불만 증가 → 쿠션멘트 삽입
오탐/미탐 로그 분석: 차단 조건·문구·시나리오 지속 개선

결론
범용 스펙 + 특화 스펙은
서비스 도메인을 가장 잘 아는 기획자가 주도해야 하며,
LLM 서비스의 핵심 중 하나입니다.

실무에서 바로 쓰는 AI 챗봇 Safety 정책

서문

Safety 정책의 목적

Safety 기본 스펙

Safety 특화 스펙

Safety 특화 스펙 사례 – 게임 내 편법/금지 행위 발언

차단 방식 설계

프롬프트 차단 (Input Filtering)

응답 차단 (Output Filtering)

혼합 전략

기획자의 고민과 역할

관련

글쓴이

hoonyoung

답글 남기기 응답 취소

서문

Safety 정책의 목적

Safety 기본 스펙

Safety 특화 스펙

Safety 특화 스펙 사례 – 게임 내 편법/금지 행위 발언

차단 방식 설계

프롬프트 차단 (Input Filtering)

응답 차단 (Output Filtering)

혼합 전략

기획자의 고민과 역할

이 글 공유하기:

관련

글쓴이

hoonyoung

답글 남기기 응답 취소