비디오

[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼

네이버 NAVER2025년 11월 27일

[팀네이버 컨퍼런스 DAN25] MLXP: GPU 효율화를 선도하는 대규모 MLOps 플랫폼 본 세션에서는 Kubernetes 기반 MLOps 플랫폼을 전사적으로 운영한 경험을 바탕으로 효율적인 GPU 자원 운영을 위한 쿼터 할당 시스템, 스케줄링 전략, 그리고 SRE 관점의 실전 사례를 공유합니다. 목차 1. 팀네이버 GPU 효율화를 위한 MLXP 멀티테넌트 클러스터 - 한정된 GPU 자원 운영의 한계 - Kubernetes 기반 쿼터 시스템 아키텍처 - GPU 운영 효율화를 위한 할당·회수 정책 및 자동화 전략 2. GPU 활용 극대화를 위한 스케줄링 전략과 구현 - 자원 파편화 문제 및 고도화된 스케줄러의 필요성 (feat. Volcano) - Distributed Bin-packing 알고리즘 - 분산 학습 및 개발용 Specialized Node Pool 구성 - Workload Category별 Preemption 전략 - Descheduling을 통한 GPU 조각 모음 3. GPU 클러스터 가용성 확보를 위한 감지·분석·복구 자동화 - 빠른 GPU 장애 감지 및 복구의 중요성 - 모니터링 아키텍처 - RepairBot: 장애 복구 자동화 대상 - MLOps 플랫폼을 개발 및 운영하시는 분 - GPU 활용도를 높이기 위한 스케줄링 전략에 관심 있으신 분 - GPU 장애 모니터링 및 대응 자동화 방법이 궁금하신 분 #DAN #DAN25 #TEAMNAVERCONFERENCE