갑자기 서버에서 모든 아웃바운드 통신이 실패한다면 사용자는 어떤 경험을 하게 될까요? 그리고 에러 알림을 받은 엔지니어는 어떤 행동을 해야 할까요? 당근페이 팀은 Kubernetes 환경에서 Istio service mesh를 이용해 네트워크를 관리하며 JVM 애플리케이션을 운영하고 있어요. 어느 날 특정 Pod에서 모든 외부 통신이 불가능한 현상이 발생했어요. 이 현상은 짧지 않은 기간 동안 지속되었고, 그때마다 원인 분석과 가설을 바탕으로 문제 해결을 시도했지만 끈질기게 재발했어요. 정확한 원인을 찾아 문제를 해결하기까지 다양한 성능 개선이 이루어졌는데, 내결함성(fault-tolerance)과 탄력성(resilience)을 갖춘 시스템을 만들기 위해 당근페이 팀이 어떤 노력을 하고 있는지 이 세션을 통해 소개할게요. 🥕 영상을 보고 당근에 관심이 생기셨다면 채용 공고를 확인해보세요! https://about.daangn.com/jobs/