카카오, 생성형 AI 안전성 위한 'Kanana Safeguard' 공개…국내 최초 3종 오픈소스화

신재윤
발행 2025-05-27 12:13

AI 윤리·안전성 확보 위한 가드레일 모델 개발
한국어 특화된 AI 필터링 기술…허깅페이스 통해 무료 배포
상업적 활용도 가능한 오픈 라이선스 적용

카카오가 생성형 AI의 신뢰성과 안전성을 강화하기 위한 기술적 대응에 나섰다. 카카오는 자체 개발한 AI 가드레일 모델 ‘Kanana Safeguard(카나나 세이프가드)’를 공개하고, 이를 포함한 총 3종의 모델을 국내 최초로 오픈소스로 제공한다고 27일 밝혔다.

최근 생성형 AI의 상용화가 빠르게 확산되면서, AI가 생성하는 콘텐츠에 대한 유해성 논란도 함께 부각되고 있다. 특히 증오 표현, 성적 콘텐츠, 개인 정보 유출 등 잠재적 위험 요소에 대한 사회적 우려가 커지는 가운데, 카카오는 이에 대응할 수 있는 가드레일 시스템의 중요성을 강조하며 개발을 본격화했다.

‘Kanana Safeguard’는 카카오가 독자적으로 개발한 한국어 기반 언어모델 ‘Kanana’를 기술 토대로 삼았으며, 한국어 문맥과 문화적 특성을 반영한 자체 데이터셋을 활용해 정교한 콘텐츠 필터링 기능을 구현했다. AI 성능을 측정하는 핵심 지표인 F1 스코어 기준으로, 글로벌 상용 모델보다 우수한 한국어 유해 콘텐츠 탐지 능력을 입증한 바 있다.

이번에 공개된 오픈소스 모델은 용도에 따라 세분화된 세 가지 형태다.
▲ ‘Kanana Safeguard’는 사용자 발화나 AI 응답 내 증오 표현, 괴롭힘, 성적 콘텐츠 등을 식별하고 차단한다.
▲ ‘Kanana Safeguard-Siren’은 개인정보, 지식재산권 등 법적 민감 정보를 포함한 요청을 탐지한다.
▲ ‘Kanana Safeguard-Prompt’는 악의적 사용자가 AI 시스템을 오용하려는 시도를 포착해 대응한다.

세 모델은 글로벌 AI 개발자 플랫폼인 허깅페이스(Hugging Face)를 통해 누구나 다운로드 받을 수 있으며, 카카오는 아파치 2.0(Apache 2.0) 라이선스를 적용해 상업적 사용, 수정, 재배포를 자유롭게 허용했다. 향후에는 지속적인 업데이트를 통해 모델의 정확도와 대응력을 한층 강화할 계획이다.

카카오 김경훈 AI Safety 리더는 “생성형 AI의 영향력이 커질수록 기술적 책임과 윤리적 고려는 선택이 아닌 필수”라며 “AI의 안전성과 신뢰성을 확보하기 위한 선제적 기술 대응을 통해, 더 나은 AI 생태계 구축에 기여하겠다”고 밝혔다.

카카오는 이번 조치를 통해 기업 내부의 AI 안전성을 강화하는 데 그치지 않고, 외부 개발자와 기업, 기관이 함께 활용할 수 있도록 공개함으로써 국내 생성형 AI 기술의 공공성과 책임성을 확대하겠다는 방침이다.