비디오

[팀네이버 컨퍼런스 DAN25] 실시간 vs 배치, 함께 굴리는 데이터 파이프라인 - 확장성과 정합성을 잡은 대규모 데이터 플랫폼 운영기

네이버 NAVER2025년 11월 27일

[팀네이버 컨퍼런스 DAN25] 실시간 vs 배치, 함께 굴리는 데이터 파이프라인 - 확장성과 정합성을 잡은 대규모 데이터 플랫폼 운영기 본 발표는 AdVoost Shopping 광고 상품에서 쇼핑 상품을 연동하는 데이터 파이프라인을 구축한 경험을 다룹니다. 다양한 플랫폼 제약과 서비스 요구사항 속에서 실시간 처리와 배치 처리의 균형, 상품 메타데이터와 광고 메타데이터의 동시 연동이라는 과제를 해결한 과정을 공유합니다. MongoDB CDC, Kafka Streams, Iceberg, 자체 영속성 레이어 등을 활용하여 구현한 방법을 소개하고, 선형성·확장성·성능 관점에서의 트레이드오프, 그리고 실시간·배치 처리 방식을 선택한 기준에 대해 공유합니다. 목차 1. AdVoost Shopping 에서의 도전과제 - AdVoost Shopping 에서의 저희의 역할, 주어진 요구 사항, 그리고 도출한 도전과제를 설명합니다. 2. 아키텍처 - 도전과제를 통해 고민한 점과 전체 아키텍처를 소개합니다 3. 아이템 세트 - 여러 계층을 가진 광고 메타데이터인 아이템세트를 Kafka Stream을 이용해 연동하는 방법과 Zookeeper 를 이용한 캐시 관리 방법을 소개합니다 4. 프루닝 - 적절한 상품을 선정하고 상품 메타데이터에 대한 정합성 보장하는 프루닝 시스템을 다룹니다. iceberg 를 이용한 배치 최적화와 실시간 스트림과 배치가 병행되는 상황에서의 상품의 정합성을 유지하는 전략을 공유합니다. 5. 신디케이션 - 프루닝된 상품을 여러 광고 비지니스에 연동하는 신디케이션 시스템을 소개합니다. Mongo 기반 성능/정합성 최적화와 상품·광고 메타데이터를 동시에 연동 과정에서의 고민과 해결한 점을 공유합니다. 6. 결과 / 개선방안 - 목표 대비 성과를 공유하고, 향후 개선에 대한 고민점을 이야기합니다. 대상 - 대규모 데이터 처리 파이프라인 / 서비스 운영에 관심이 있으신 분 - 다양한 계층구조에 대한 데이터 처리를 고민하는 데이터 엔지니어 - 실시간과 배치처리를 동시에 신경써야하는 데이터 엔지니어 #DAN #DAN25 #TEAMNAVERCONFERENCE