비디오

[팀네이버 컨퍼런스 DAN25] IDC Seamless HDFS: IDC의 한계를 넘어 도달한 데이터 통합의 세계

네이버 NAVER2025년 11월 27일

[팀네이버 컨퍼런스 DAN25] IDC Seamless HDFS: IDC의 한계를 넘어 도달한 데이터 통합의 세계 이 세션에서는 기존에 여러 IDC에서 HDFS 시스템을 운영하며 마주했던 문제들과 고군분투 끝에 찾아낸 해결책을 공유합니다. 데이터 엔지니어링 작업 시 발생하는 읽기(Read), 쓰기(Write) 트래픽의 특징과 이를 Storage 레벨에서 어떻게 기술적으로 대응했는지 설명합니다. 이 기술을 통해 사용자들은 기존에는 불가능하다고 생각했던 타 IDC의 데이터 분석과 자동화된 재해 복구(Diaster Recovery)에 대응할 수 있게 됩니다. 또한, 운영자 측면에서는 스토리지 사용량을 절감하고 트래픽을 효율적으로 제어하여 장애를 미리 방지하는 노하우도 얻으실 수 있습니다. 이번 세션을 통해 여러분의 HDFS 시스템 운영과 데이터 엔지니어링에 새로운 영감을 얻어가시길 바랍니다 목차 1. 문제 제기: IDC에 흩어진 데이터와 그로 인한 한계 - 사내 Hadoop 플랫폼(C3)의 구성 - 현재 상황에서의 문제점 (Data Silo 및 Diaster Recovery 이슈) - IDC간 대량 트래픽 발생시 생길 수 있는 문제점 2. 기존의 해결책과 한계점 - 사용자 중심의 해결책들 (distcp & dual write) - 해결책들의 불편함과 한계점들 3. 새로운 도전: IDC Seamless HDFS - Original HDFS에서 이미 사용할 수 있는 기능들 및 설계 시 고려한 포인트들 - 서로 다른 IDC에 위치한 Datanode를 이용한 HDFS 구성 방법 소개 - 새로 구현된 Write 옵션 (Sync IDC Write, Async IDC Write) 및 IDC간 트래픽 컨트롤 기능 소개 4. 개발에 따른 결과: 사용성 및 정량적 성과 - IDC를 건너 접근하는 사용자 작업 전체 소요시간의 개선 - 스토리지 저장 효율 산술 33% 개선 - IDC간 트래픽 컨트롤로 인한 운영 오버헤드 개선 대상 - 분산 시스템 아키텍처 및 데이터 엔지니어링에 관심 있는 기술 전문가 - HDFS 시스템 운영 및 관리에 어려움을 겪는 현업 엔지니어 - IDC 간 데이터 연동 및 효율적인 스토리지 활용 방안을 고민하는 실무자 #DAN #DAN25 #TEAMNAVERCONFERENCE