카카오, 경량 멀티모달·MoE 언어모델 오픈소스 공개…국산 AI 기술 독립성 강화

카카오, 자체 개발 멀티모달·MoE 모델 오픈소스로 공개
이미지·텍스트 동시 이해, 국내외 벤치마크서 최고 성능 기록
추론 시 일부만 작동하는 MoE 구조로 고성능·저비용 구현

카카오가 국내 최초로 경량 멀티모달 언어모델과 MoE(Mixture of Experts) 기반 언어모델을 오픈소스로 공개하며 국산 인공지능(AI) 기술력과 자립화 기반을 한층 강화했다. 24일 카카오는 세계 최대 AI 협업 플랫폼 허깅페이스(Hugging Face)를 통해 이미지와 텍스트를 동시에 이해할 수 있는 경량 멀티모달 언어모델 ‘Kanana-1.5-v-3b’와, 비용 효율성이 뛰어난 MoE 모델 ‘Kanana-1.5-15.7b-a3b’를 공개했다고 밝혔다. 이는 지난 5월 언어모델 4종을 오픈소스로 선보인 데 이어 두 달 만에 이뤄진 추가 공개다.


사진 출처 = 카카오 제공


카카오는 자체 모델 설계 기술력을 바탕으로 정부가 추진하는 ‘독자 AI 파운데이션 모델 프로젝트’에 참여하고 있으며, 이번 공개를 통해 AI 생태계의 개방성과 기술 자립 기반 강화에 기여하겠다는 방침이다. ‘Kanana-1.5-v-3b’는 텍스트뿐 아니라 이미지 정보를 처리할 수 있는 멀티모달 언어모델로, 카카오가 ‘프롬 스크래치(From Scratch)’ 방식으로 독자 개발한 Kanana 1.5 시리즈를 기반으로 한다. 이 모델은 한국어 및 영어 이미지 이해 능력과 지시 이행 성능(instruction following) 면에서 GPT-4o 등 글로벌 멀티모달 모델과 견줄 수 있는 성능을 보이며, 국내외 유사 사이즈 모델 대비 최고 성능을 기록한 것으로 나타났다.

특히, 인간 선호 반영 학습(Human Preference Alignment Training)과 지식 증류(Knowledge Distillation)를 통해 모델 성능을 극대화했으며, 한국어 벤치마크 기준으로 국내 공개 모델 대비 최대 128%의 지시 이행 성능을 달성했다. 경량 구조임에도 불구하고 도표 이해, 수학 문제 풀이, 이미지 인식, 관광지 설명 등 다양한 활용이 가능하며, 빠른 추론 속도와 높은 효율성으로 이미지 검색이나 콘텐츠 분류 등 실시간 응답이 필요한 분야에 효과적이다.

함께 공개된 ‘Kanana-1.5-15.7b-a3b’는 기존의 밀집(Dense) 모델과 달리 일부 전문가 모듈만 활성화되는 MoE 구조를 채택한 것이 특징이다. 총 15.7B의 파라미터 중 실제 추론 시 약 3B만 활성화되는 이 모델은, 기존 3B 모델을 업사이클링(Upcycling) 방식으로 확장해 개발됐다. 이는 기존 다층 신경망을 복제해 전문가 레이어로 전환하는 방식으로, 학습 비용과 시간을 크게 절약하면서도 성능은 8B 모델 수준을 상회하는 것으로 나타났다.

카카오 측은 MoE 모델 구조가 제한된 인프라 환경에서도 고성능 AI 개발을 가능케 하는 현실적인 대안이 될 수 있다며, 연구개발자와 스타트업 등에게 실질적인 도움이 될 것이라고 설명했다. 특히 추론 시 일부 파라미터만 작동하는 구조적 특성상, 대규모 서비스를 운영할 때도 저비용 고효율의 운영이 가능해 활용도가 높을 것으로 기대된다.

이번 오픈소스 공개는 국내 AI 생태계의 기술 자립과 글로벌 수준의 모델 경쟁력을 동시에 달성하기 위한 전략적 행보로 평가된다. 실제로 카카오는 지난해 자체 개발 AI 모델 ‘카나나’의 개발기를 공개하며 기술 투명성을 강조했고, 올해에는 아파치 2.0 라이선스를 적용해 상업적 활용까지 가능한 국산 LLM 공개 기반을 마련해왔다.

카카오 김병학 카나나 성과리더는 “이번 모델 공개는 단순한 기술 진보를 넘어, 서비스 적용과 기술 자립이라는 이중의 목표를 달성하기 위한 중요한 성과”라며 “향후 에이전트형 AI 구현에 필요한 추론 기반 모델 공개 등 후속 기술 공개도 이어질 것”이라고 밝혔다.

<저작권자 ⓒ 의사나라뉴스, 무단 전재 및 재배포 금지>