네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2024(10월)에서 발표되었던 세션을 공개합니다. [발표 내용] 스노우 AI 서비스의 운영 개선을 위해 기존 GPU 서버 인프라를 Kubernetes 클러스터로 이전하는 과정에서 맞닥뜨린 기술적 문제들과 해결 방법을 공유합니다. [대상] AI 서비스 운영을 위해 GPU 서버 기반의 Kubernetes 클러스터 도입을 고려하는 엔지니어 [목차] - SNOW, AI, GPU, 그리고 Kubernetes - GPU 인프라 이전을 위한 고려 사항 - Kubernetes와 유연한 GPU 자원 스케쥴링 - Kubernetes GPU 클러스터의 미래