비디오

[팀네이버 컨퍼런스 DAN25] NELO Alaska: 장기 로그 보존을 위한 Iceberg 도입과 운영 - 20x 비용 절감과 확장성 향상

네이버 NAVER2025년 11월 27일

[팀네이버 컨퍼런스 DAN25] NELO Alaska: 장기 로그 보존을 위한 Iceberg 도입과 운영 - 20x 비용 절감과 확장성 향상 본 세션에서는 NAVER의 전사 로깅 플랫폼 NELO에서 장기 로그 보존을 위해 오브젝트 스토리지와 Apache Iceberg 테이블 포맷, Trino 기반 SQL 검색을 도입해 ~20× 비용 절감과 높은 확장성을 달성한 사례를 공유합니다. 4 PiB+ 데이터를 운용하던 기존 Elasticsearch 중심 구조에서 실제 쿼리 분포와 보존 요구 간의 불일치를 정량 분석하고, 스토리지/컴퓨팅 분리·오픈 포맷·저비용 스토리지를 축으로 한 NELO Alaska 아키텍처를 설계·구현·운영한 경험을 중심으로 다룹니다. 목차 1. 배경 & 문제 정의 - NELO 소개: 사내 서비스/인프라/보안 모니터링을 담당, ES 클러스터 (4 PiB+, ~4,000대) - 기존 보존 전략의 한계: 인덱스 중심 구조의 비용, 샤드·리밸런스 운영 리스크, 확장성 제약 - 사용 패턴 분석: 전체 데이터 중 ~70%는 자주 조회되지 않는 콜드 데이터 - 요구 사항 정리: 대용량 로그 장기 보존, 제한적 데이터 쿼리, 비용 최적화, 높은 확장성 2. 설계 원칙 & 기술 선택 - 핵심 원칙: 스토리지/컴퓨팅 분리, 오픈 테이블 포맷, 높은 확장성과 저비용의 오브젝트 스토리지 - 오픈 테이블 포맷 비교: Iceberg vs. Hudi/Delta — 스냅샷/매니페스트 구조, 스키마/파티션 진화, 메타데이터 관리 - 데이터 프로세싱 오픈 소스 비교: Low-level Iceberg SDK vs. Flink/Kafka-Connect/Spark 3. 아키텍처: 로그 데이터 적재/최적화/카탈로그 - NELO Alaska 전체 아키텍처 소개 - 로그 데이터 적재 및 스키마 관리 - 로그 데이터/메타 최적화 및 라이프 사이클 관리 - 카탈로그 및 외부 데이터 연동 - 로그 쿼리 & UX: Trino SQL 기반 탐색/집계, Text-to-SQL 4. 적용 결과 및 개선 내용 - 효과(성능/비용/사용성): 저장·쿼리 비용 ~20× 절감, 기존 ES로는 어려웠던 분석 쿼리 활성화, 수평 확장성 강화 - 한계점 & 개선: 결함 주입 테스트로 업데이트 검증, 데이터 파이프라인 분리, 초고트래픽 대응을 위한 파일 기반 적재, 작은 파일/파편화로 인한 확장성 이슈 해결 - 요약 및 결론 대상 - 로그 모니터링 시스템을 새로 구축/전환하려는 엔지니어 - 대용량 로그 저장 비용과 확장성 한계를 겪는 플랫폼/데이터 팀 - 감사·규제 대응 등 장기 로그 보존 요구가 있는 조직 - Elasticsearch 등 인덱스 중심 구조의 한계를 느끼고 대안 아키텍처를 모색 중인 분 #DAN #DAN25 #TEAMNAVERCONFERENCE