GitHub 가용성 보고서: 2025년 9월

GitHub 가용성 보고서: 2025년 9월

9월에 우리는 GitHub 서비스 전반에 걸쳐 성능 저하를 초래하는 세 가지 사고를 경험했습니다.

9월 15일 17:55 UTC (25분간 지속)

2025년 9월 15일 17시 55분부터 18시 20분(UTC) 사이에 Copilot은 대부분의 기능에 대한 가용성 저하를 경험했습니다. 이는 전역 속도 제한기에 기능 플래그를 부분적으로 배포했기 때문입니다. 이 플래그는 의도치 않게 요청을 100% 제한하여 403 오류를 반환하는 동작을 트리거했습니다. 이 문제는 즉시 복구되는 기능 플래그를 되돌려 해결되었습니다.

사고의 근본 원인은 속도 제한 논리에서 감지되지 않은 극단적인 경우에서 비롯되었습니다. 이 플래그는 일부 사용자에 대한 속도 제한을 축소하기 위한 것이지만 의도치 않게 속도 제한 구성을 잘못된 상태로 만들었습니다.

문제는 해결되었으며, 조기 문제 감지를 위한 트래픽 이상 모니터를 추가하고 속도 제한 확장 테스트 범위를 늘려 사전 프로덕션 검증을 강화함으로써 시스템 복원력을 강화하고 있습니다.

9월 24일 14:02 UTC (50분간 지속)

2025년 9월 23일 15:29 UTC부터 17:38 UTC 사이, 그리고 2025년 9월 24일 14:02 UTC부터 15:12 UTC 사이에 이메일 전달이 지연되어 대부분의 이메일 알림 유형이 크게 지연되었습니다. 두 사고로 인한 전반적인 사고 영향은 총 130분에 달했지만 고객이 경험한 최대 지연 시간은 50분이었습니다. 이는 비정상적으로 많은 양의 트래픽으로 인해 발생했으며 이로 인해 일부 아웃바운드 이메일 서버에서 리소스 경합이 발생했습니다.

트래픽 양이 많을 때 용량을 더 잘 할당할 수 있도록 구성을 업데이트했으며 감지 기능을 개선하기 위해 모니터도 업데이트하고 있습니다.

9월 29일 16:26 UTC (67분간 지속)

2025년 9월 29일 16:26 UTC에서 17:33 UTC 사이에 Copilot API가 부분적으로 저하되어 GitHub MCP 서버 요청의 평균 0.2%에 대해 간헐적으로 잘못된 404 응답이 발생했으며 요청의 약 2%에 최고조에 달했습니다. 이 문제는 내부 종속성 업그레이드로 인해 발생했으며 이로 인해 서비스 구성이 잘못되었습니다.

잘못된 구성을 해결하기 위해 업그레이드를 롤백하여 문제를 해결했습니다. 구성 문제를 해결했으며 유사한 문제를 방지하기 위해 문서화 및 롤아웃 프로세스를 개선할 예정입니다.


상태 변경 및 사건 후 요약에 대한 실시간 업데이트를 보려면 상태 페이지를 따르십시오. 우리가 진행 중인 작업에 대해 자세히 알아보려면 GitHub 엔지니어링 블로그를 확인하세요.

작성자:

야쿠브 올렉시

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다