AWS 중단의 롱테일

AWS 중단의 롱테일

거대한 아마존 월요일 아침 일찍 시작된 웹 서비스 클라우드 중단은 전 세계 주요 통신, 금융, 의료, 교육 및 정부 플랫폼이 중단되면서 인터넷의 취약한 상호 의존성을 보여주었습니다. 날이 갈수록 AWS는 버지니아 북부에 본사를 둔 회사의 중요한 US-EAST-1 지역에서 발생한 문제를 진단하고 수정하기 위해 노력하기 시작했습니다. 그러나 일련의 영향이 완전히 해결되는 데는 시간이 걸렸습니다.

이 사건을 반성하는 연구원들은 특히 10월 20일 월요일 오전 3시(동부 표준시)에 시작된 가동 중단 기간을 강조했습니다. AWS는 상태 업데이트에서 월요일 오후 6시 1분(동부 표준시)까지 “모든 AWS 서비스가 정상 운영으로 돌아왔다”고 밝혔습니다. 이 중단은 Amazon의 DynamoDB 데이터베이스 애플리케이션 프로그래밍 인터페이스에서 직접적으로 발생했으며 회사에 따르면 141개의 다른 AWS 서비스에 “영향을 미쳤습니다”. 여러 네트워크 엔지니어와 인프라 전문가는 AWS, Microsoft Azure, Google Cloud Platform과 같은 소위 “하이퍼스케일러”의 복잡성과 규모를 고려할 때 오류가 이해할 수 있고 불가피하다고 WIRED에 강조했습니다. 그러나 그들은 이러한 현실이 다운타임이 길어지는 클라우드 제공업체를 단순히 면제해 주어서는 안 된다는 점도 지적했습니다.

“말씀 가늠자 핵심입니다. 사후에 무엇이 잘못되었는지 알아내는 것은 쉽지만, AWS의 전반적인 안정성은 모든 장애를 예방하는 것이 얼마나 어려운지를 보여줍니다.”라고 신뢰성 및 사이버 보안 회사인 CYE의 최고 정보 보안 책임자인 Ira Winkler는 말합니다. “이상적으로 이것은 교훈이 될 것이며 Amazon은 미래에 이와 같은 재난이 발생하지 않도록 방지하거나 적어도 그런 재난이 발생하는 한 다운 상태로 유지되는 것을 방지하기 위해 더 많은 중복성을 구현할 것입니다.”

AWS는 고객의 회복 기간에 대한 WIRED의 질문에 응답하지 않았습니다. AWS 대변인은 회사가 사건에 대한 “이벤트 후 요약” 중 하나를 게시할 계획이라고 말했습니다.

Hunter Strategy의 연구 개발 담당 부사장인 Jake Williams는 “이것은 단순한 ‘일상적인’ 가동 중단이 아니라고 생각합니다. 훨씬 더 빨리 완전한 문제 해결을 기대했을 것입니다.”라고 말합니다. “그들에게 당연한 연속적인 실패는 가동 중단이 자주 발생하지 않기 때문에 많은 경험을 쌓은 것이 아닙니다. 따라서 그것은 그들의 공로입니다. 그러나 이러한 회사에 패스를 제공하는 사고 방식에 빠지는 것은 정말 쉽고, 우리는 그들이 인프라에 더 많은 고객을 유치하기 위해 적극적으로 노력함으로써 이러한 상황을 만든다는 사실을 잊어서는 안 됩니다. 클라이언트는 자신을 과도하게 확장하고 있는지 또는 재정적으로 무슨 일이 일어날 수 있는지 통제하지 않습니다.”

이 사건은 웹 중단의 친숙한 원인인 “도메인 이름 시스템” 해결 문제로 인해 발생했습니다. DNS는 본질적으로 웹 브라우저를 올바른 서버로 연결하는 인터넷의 전화번호부 메커니즘입니다. 결과적으로 DNS 문제는 요청 실패를 유발하고 콘텐츠 로드를 방해할 수 있기 때문에 중단의 일반적인 원인입니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다