비디오

서비스 장애를 예방하는 방법: Chaos Engineering

NAVER D22024년 7월 30일

네이버 사내 기술 교류 행사인 NAVER ENGINEERING DAY 2024(5월)에서 발표되었던 세션을 공개합니다. [발표 내용] * 신입 개발자가 뉴스서비스에 대해 탐구하고 개선하려고 노력했던 경험을 공유합니다. * 서비스의 장애를 예방하고 신뢰성을 높이기 위한 분야인 Chaos Engineering에 대해 소개합니다. * 뉴스서비스의 잠재적인 Single-Point-of-Failure(SPOF)를 예방하고자 했던 경험을 공유합니다. [목차] Episode 1: Chaos Engineering 1.1. Netflix의 IDC 장애 이후 클라우드 전환, 그리고 장애를 예방하기 위한 노력 1.2. Chaos Monkey, 모든 인프라에 대한 실패를 가정하고 인프라를 운영한다 Episode 2: Toxiproxy 2.1. Toxiproxy의 구조와 테스트 도구로 선택한 이유 2.2. proxy server 구성 방법 2.3. client 사용방법(Client, HTTP API, CLI)과 주입할 수 있는 toxics Episode 3: 뉴스서비스의 SPOF 예방하기 3.1. Chaos Engineering 적용: 뉴스서비스의 구조와 가설 수립 3.2. Chaos Engineering 도구(Toxiproxy)를 활용한 테스트 환경 구성 3.3. 테스트 결과 확인 3.4. 기존 코드의 문제점 확인 및 개선 [대상] - 안정적인 서비스/플랫폼을 운영하기 위한 개발자 - 서비스/플랫폼의 SPOF를 검증하기 위한 개발자 - 서비스/플랫폼의 장애 영향을 테스트하고 싶은 개발자