[Production Traffic] 특정 API 호출 시 CPU와 Memory가 급증할 경우를 대비한 사전 시뮬레이션
·
Production Traffic
들어가며장애는 무작위가 아닌 ‘예고된 반복’이다.운영 환경에서 장애는 종종 예고 없이 찾아오는 것처럼 보이지만, 대부분은 이미 수많은 징후를 포함한 반복적인 패턴 속에서 발생합니다. 그중 대표적인 것이 특정 API의 리소스 폭증입니다. 이번 포스팅에서는 다음과 같은 상황을 가정하여 테스트를 진행했습니다:> "만약 특정 API가 예상치 못하게 CPU와 Memory를 고갈시킨다면, 현재의 ECS Auto Scaling 정책은 이 상황에 얼마나 잘 대응할 수 있을까?" 코드는 수정하지 않고, 인프라 수준에서 ECS (EC2 타입) 기반 Auto Scaling 정책을 설정하고 `/v1/stress` API를 반복 호출해 실제 리소스 폭증을 유발해 봤습니다. 이를 통해 지표 기반 Auto Scaling ..