Github 가용성 보고서 : 2025 년 4 월
4 월에는 3 건의 사건이 발생하여 GitHub 서비스에서 성능이 저하되었습니다.
4 월 11 일 03:05 UTC (지속 39 분)
2025 년 4 월 11 일, 03:05 UTC에서 03:44 UTC까지, Codespace 사용자의 약 75%가 생성 및 시작 실패에 직면했습니다. 이들은 수동 구성 변경으로 인해 테스트 범위를 피한 내부 종속성으로 변경되었습니다. 우리의 모니터 및 탐지 메커니즘이 트리거되어, 이로 인해 우리가 심사하고 변화를 되돌리고 서비스 건강을 복원하는 데 도움이되었습니다.
우리는 추가 게이트, 테스트를위한 안전한 메커니즘, 이러한 구성 변경을 출시하기 위해 노력하고 있습니다. 우리는 더 이상 혼란을 기대하지 않습니다.
4 월 23 일 07:00 UTC (20 분 지속)
2025 년 4 월 23 일, 07:00 UTC와 07:20 UTC 사이에 여러 Github 서비스는 데이터베이스 호스트의 리소스 경합으로 인한 열화를 경험했습니다. 총 요청의 2-5% 범위의 결과 오류율은 사용자에게 간헐적 인 서비스 중단으로 이어졌습니다. 문제는 쿼리로드와 진행중인 스키마 변경 사이의 상호 작용으로 인해 연결 포화가 발생했습니다. 스키마 마이그레이션이 완료된 후 사고가 회복되었습니다.
모니터링에 대한 우리의 사전 투자 및 Playbook 개선은 첫 번째 응답자 팀을 효과적으로 조직하여 사건을 더 빠르게 발전시키는 데 도움이되었습니다. 또한 스키마 변경 툴링에서 회귀를 식별하여 스키마 동안 리소스 활용도를 높이고 이전 안정 버전으로 되돌아갔습니다.
향후 비슷한 문제를 방지하기 위해 데이터베이스의 용량을 검토하고, 모니터링 및 경고 시스템을 개선하며, 탐지 및 완화 시간을 줄이기위한 보호 장치를 구현하고 있습니다.
4 월 23 일 19:13 UTC (지속 42 분)
2025 년 4 월 23 일, 19:13:50 UTC와 UTC 22:11:00 UTC 사이에 Github의 마이그레이션 서비스는 저장소 마이그레이션 작업자에 대한 액세스를 제거하는 구성 변경으로 인한 고장을 경험했습니다. 이 기간 동안 57 개 조직의 837 개 이주가 영향을 받았습니다. 영향을받는 마이그레이션은 로그 메시지“Git 소스 마이그레이션 실패. 오류 메시지 : 오류가 발생한 후 재시도가 필요했습니다. 추가 지원을 위해 지원에 문의하십시오.” 표시되었습니다. 액세스가 복원되면 더 이상의 중단없이 정상 작업이 재개되었습니다.
이 사건의 결과로, 우리는 향후 유사한 장애를 방지하기 위해 강화 된 테스트 범위와 정제 된 모니터링 임계 값을 구현했습니다.
상태 변경 및 사후 요약에 대한 실시간 업데이트는 상태 페이지를 따르십시오. 우리가 작업하는 일에 대한 자세한 내용은 Github 엔지니어링 블로그를 확인하십시오.
작성자가 작성했습니다
Post Comment