Github 가용성 보고서 : 2025 년 5 월

Github 가용성 보고서 : 2025 년 5 월

5 월에 우리는 3 건의 사건을 경험하여 GitHub 서비스에서 성능이 저하되었습니다.

5 월 1 일 22:09 UTC (1 시간 4 분 지속)

2025 년 5 월 1 일, 22:09 UTC에서 23:13 UTC까지 문제 서비스가 저하되었고 사용자는 첨부 파일을 업로드 할 수 없었습니다. 근본 원인은 모든 클라이언트 측 HTTP 요청에 사용자 정의 헤더를 추가하여 공급자에 첨부 파일을 업로드 할 때 CORS 오류를 초래하는 새로운 기능으로 식별되었습니다. 우리는 ~ 130K 사용자가 ~ 45 분 동안 사건의 영향을받는 것으로 추정됩니다.

22:56 UTC에서 새 헤더를 추가 한 기능 플래그를 롤백하여 사건을 완화했습니다. 이 작업이 다시 발생하지 않도록하기 위해 고객 측 요청에 대한 안전한 변경 사항을 모니터링하고 보장하기 위해 새로운 메트릭을 추가하고 있습니다. 우리는이 사건에서 제작에서 잘 수행되는이 사건의 학습을 기반으로 증강 된 버전의 기능을 배포했습니다.

5 월 28 일 09:45 UTC (5 시간 지속)

2025 년 5 월 28 일, 약 09:45 UTC에서 14:45 UTC까지 GitHub Actions는 Ubuntu-24 표준 호스팅 러너를 사용하여 공개 저장소에서 워크 플로우에 대한 지연된 작업을 경험했습니다. 이는 장애 조치 후 백엔드 캐싱 동작의 오해로 인해 발생했으며, 이로 인해 작업 할당이 중복되어 영향을받는 호스팅 러너 풀의 전반적인 용량이 줄어 듭니다. 공공 저장소에서 Ubuntu-24 호스팅 러너 작업의 약 19.7%가 지연되었습니다. 다른 호스팅 된 러너, 자조 주자 및 개인 리포 워크 플로우는 영향을받지 않았습니다.

12:45 UTC까지 구성 문제는 백엔드 캐시에 대한 업데이트를 통해 수정되었습니다. 수영장은 14:45 UTC에 큐잉 충격이 완전히 완화 될 때까지 대기열 작업의 백 로그를 통해 더 빨리 작업 할 수 있도록 확장되었습니다. 우리는 미래의 비슷한 문제의 가능성을 줄이기 위해 장애 조치 복원력 및 검증을 개선하고 있습니다.

5 월 30 일 08:10 UTC (7 시간 50 분 지속)

2025 년 5 월 30 일, 08:10 UTC와 16:00 UTC 사이에 Microsoft Teams Github Integration Service는 완전한 서비스 중단을 경험했습니다.

이 기간 동안 통합은 사용자 요청을 처리하거나 알림을 전달할 수 없었으므로 링크 미리보기를 제외하고 모든 기능에서 100% 오류율이 발생했습니다. 이 정전은 다운 스트림 인증 제공 업체와의 인증 문제로 인해 발생했습니다.

적절한 모니터링이 설치된 반면, 경고 임계 값은 적시에 응답을 트리거하기에 충분히 민감하지 않아 사고 감지 및 참여가 지연됩니다. 일단 참여한 후, 우리 팀은 다운 스트림 제공 업체와 긴밀히 협력하여 인증 실패를 진단하고 해결했습니다. 그러나 공급자로부터 예상보다 길어진 응답 시간이 연장 된 정전 기간에 기여했습니다.

우리는 서비스 기능을 복원하기 위해 제공자와 협력하여 사건을 완화하고 앞으로 유사한 문제의 위험을 줄이기 위해보다 내구성있는 인증 방법으로 마이그레이션하기 위해 노력하고 있습니다.


상태 변경 및 사후 요약에 대한 실시간 업데이트는 상태 페이지를 따르십시오. 우리가 작업하는 일에 대한 자세한 내용은 Github 엔지니어링 블로그를 확인하십시오.

작성자가 작성했습니다

Jakub Oleksy

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다