비디오

Ray를 활용한 GPU Util 100% MLOps: 배치처리부터 모델 서빙까지

NAVER D22025년 7월 15일

네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2025(5월)에서 발표되었던 세션을 공개합니다. [발표 내용] AI/ML 분산 처리 프레임워크인 Ray를 활용하여 GPU Util 100%를 달성한 배치처리 기법과 확장 가능한 모델 서빙 아키텍처를 소개합니다. [발표 대상] 배치 파이프라인 설계와 모델 서빙 자동화를 담당하는 분 Ray 기반 인프라 운영 및 GPU 클러스터 관리 업무를 수행하는 분 Ray Serve를 활용해 고성능 모델 서빙 API를 설계·배포·운영하는 분 Ray LLM(vLLM) 기반 LLM 추론 파이프라인을 구성·확장하고, 내부 모델 레지스트리를 연동하는 분 [목차] 1. Introduction to Ray - Ray에 대한 소개 및 Core Architecture에 대한 이해 2. Ray Data: GPU Util 100% Bach Inference를 위한 수난기 - 기존 구조와 도입된 구조 비교 - TroubleShooting 4건 - PipelineStep 추상 클래스 소개 3. Ray Serve: 배치 + 서빙, 두 마리 토끼를 잡다 - Offline Serving UseCase - GPU 자원 효율성 실험 - ModelInference, BaseDeployment 인터페이스 소개 4. Ray LLM: ServeManager를 활용한 LLM 배포 (with vLLM) - ServeManager 구조 소개 - TroubleShooting 4건 5. Conclusion