메시지 광고 추천 시스템은 일별 500개 이상의 모델을 실시간으로 서빙합니다. 이번 발표에서는 LLM 모델 서빙 속도를 높이기 위해 JVM 기반 인퍼런스 서버를 Nvidia Triton으로 교체한 경험을 공유합니다. #AI #DNN #Model_Inference #MLOps 광고추천개발의 Hendo입니다. 모델 인퍼런스 & 서빙에 관심이 많습니다. 광고추천개발의 Jaylene입니다. 실시간 모델 인퍼런스와 서빙 작업을 담당하고 있습니다. 발표자료 보기 👉 https://speakerdeck.com/kakao/ifkakao24-18 if(kakaoAI)2024에 대한 자세한 정보는 👉 https://if.kakao.com #카카오 #이프카카오 #개발자컨퍼런스 #AI #기술 #개발 #ifkakaoAI2024