GitHub 가용성 보고서: 2024년 12월

GitHub 가용성 보고서: 2024년 12월

12월에는 GitHub 서비스 전반에 걸쳐 성능 저하를 초래하는 두 가지 사고가 발생했습니다.

12월 17일 14:17 UTC (17분간 지속)

2024년 12월 17일 14:33 UTC부터 14:50 UTC 사이에 사용자가 github.com에 액세스할 때 간헐적인 오류 및 시간 초과가 발생했습니다. 오류율은 평균 8.5%였으며 요청의 최고치는 44.3%였습니다.

오류율 증가로 인해 로그인, 저장소 보기, 풀 요청 열기, 문제에 대한 의견 제시 등 서비스 전반에 광범위한 영향이 발생했습니다. 이 오류는 계획된 유지 관리로 인해 웹 서버가 과부하되어 의도치 않게 실시간 업데이트 서비스가 중단되었기 때문에 발생했습니다. 이 서비스는 사용자 환경에서 자동 업데이트를 제공하는 기능을 지원하므로 사용자가 업데이트를 받으려면 페이지를 수동으로 새로 고쳐야 합니다. 실시간 업데이트 서비스가 중단되면서 클라이언트가 공격적으로 업데이트되어 서버에 과부하가 발생했습니다.

우리는 계획된 유지 관리의 변경 사항을 롤백하고 WebSocket 클라이언트의 트래픽 유입을 처리하기 위해 서비스를 확장하여 사고를 완화했습니다.

웹 서버의 과부하로 인해 경고에 공백이 있었고 이로 인해 영향을 받은 서비스가 잘못 평가되었습니다. 우리는 사고가 완화된 후에야 우리 서비스에 미치는 영향의 광범위한 범위를 평가할 수 있었습니다.

우리는 앞으로 이와 같은 문제를 방지하기 위해 github.com에서 라이브 업데이트 서비스 가용성의 영향을 줄이기 위해 노력하고 있습니다. 이러한 유형의 실패를 포착하기 위해 요청 경로의 더 높은 수준에 모니터링을 추가했으며 사고로 인한 영향 범위를 더 잘 감지할 수 있도록 경고를 개선하기 위해 노력하고 있습니다.

12월 20일 15:57 UTC (43분간 지속)

2024년 12월 20일 15:57 UTC부터 16:39 UTC 사이에 타사 서비스 제공업체 중 하나의 부분적인 중단 문제로 인해 일부 마케팅 페이지에 액세스할 수 없게 되었습니다. 페이지에 액세스하려고 시도하는 모든 GitHub 사용자는 500 오류를 수신하게 됩니다. 운영 제품이나 서비스 영역에는 영향이 없었습니다.

UTC 16시 39분에 서비스 제공업체는 중단 문제를 해결하여 영향을 받은 페이지에 대한 액세스를 복원했습니다. 우리는 오류 처리를 개선하고 향후 중단이 발생할 경우 이러한 페이지의 성능을 적절하게 저하시키는 방법을 조사하고 있습니다.


우리를 따르십시오 상태 페이지 상태 변경 및 사후 요약에 대한 실시간 업데이트를 위해. 우리가 진행 중인 작업에 대해 자세히 알아보려면 GitHub 엔지니어링 블로그를 확인하세요.

작성자:

출처 참조

Post Comment