비디오

눈으로 보고, 귀로 듣고, 입으로 말하는 AI – 통합 멀티모달 언어모델 Kanana-o 개발기

kakao tech2025년 9월 24일

if(kakao)25 텍스트만 이해하던 AI는 이제 사람처럼 ‘보고’, ‘듣고’, ‘말’합니다. 텍스트·이미지·오디오를 입력받아 텍스트와 음성으로 응답하는 통합 멀티모달 언어모델 Kanana-o의 개발 과정 및 결과를 공유합니다. #TECH #AI #Multimodal 카카오에서 멀티모달 언어모델을 연구·개발하고 있는 노병석(peter.brain)입니다. 발표자료 보기 📍https://if.kakao.com/2025/session?sessionId=50 📍if.kakao.com if(kakao)25 홈페이지 : https://if.kakao.com/2025 #카카오 #kakao #이프카카오25