비디오

[팀네이버 컨퍼런스 DAN25] 하루 수백억 건을 처리하는 똑똑한 로그 파이프라인 만들기: 비용·성능·안정성 삼박자

네이버 NAVER2025년 11월 27일

[팀네이버 컨퍼런스 DAN25] 하루 수백억 건을 처리하는 똑똑한 로그 파이프라인 만들기: 비용·성능·안정성 삼박자 네이버 전사 로그(최대 초당 수백만건, 하루 수백억건의 로그)를 수집/처리하는 로그 파이프라인 Logiss를 소개하고, Logiss에서 겪은 문제점들과 해결책들을 공유합니다. Storm + kafka 환경에서 multi topology를 적용하는 방법과 이를 통해 안정적인 무중단 배포가 가능해진 파이프라인과 지능형 파이프라인의 도입으로 낮시간의 피크 트래픽을 한가한 시간으로 분산시킨 방법, 장애 상황에서 로그의 우선 순위에 따른 차등된 처리 방식, 샘플링 기능으로 저장소를 효율적으로 이용할 수 있게된 방법을 알려드립니다. 목차 1. Logiss 시스템 소개 - Storm, Kafka, Logstash, OpenSearch로 구성된 파이프라인 아키텍처 - 네이버 서비스 전반에서 발생하는 로그를 수집, 하루 수백억 건의 로그를 실시간 처리 2. 기존 문제점 - 단일 토폴로지 운영 → 배포 시 파이프라인 처리 중단 발생 - 낮/새벽 트래픽 차이로 인프라 과다 확보 - 모든 로그의 공평한 처리 → 지연 발생 시 연동된 전체 서비스 영향 - 장기 저장소와 실시간 검색 모두에 로그 저장 → 불필요한 자원 소모 3. 해결 방법 - Storm Kafka Spout을 Kafka client subscribe 방식으로 변경, multi topology 운영 및 rolling restart 가능 - Partition assignment strategy를 sticky로 적용, 재할당 시간 최소화 - 데이터 처리 옵션(우선순위, 처리 중단 허용, LandingZone·OpenSearch 샘플링)과 클러스터 상태 (backpressure, mayday) 도입 4. 성과/효과 - 무중단 배포 실현 → 배포 안정성 및 서비스 영향 최소화 - 실시간·비실시간 처리 분리 → 피크 트래픽 부담 완화, 인프라 비용 절감 - 샘플링 기능으로 저장소 효율화 - 장애 상황에서도 우선순위 기반 처리로 핵심 서비스 영향 최소화 5. 마무리 - 향후 AI 기반 클러스터 상태 전환, 동적 옵션 적용 검토 - 본 경험이 대규모 로그 파이프라인과 플랫폼 운영에 관심 있는 엔지니어들에게 도움이 되길 기대합니다. 대상 - 대규모 로그 파이프라인, 서비스 운영, 데이터 플랫폼에 관심 있는 데이터/백엔드 엔지니어 #DAN #DAN25 #TEAMNAVERCONFERENCE