GitHub 가용성 보고서: 2025년 11월

GitHub 가용성 보고서: 2025년 11월

11월에는 GitHub 서비스 전반에 걸쳐 성능 저하를 초래하는 세 가지 사고가 발생했습니다.

11월 17일 16:52 UTC (2시간 16분 동안 지속)

2025년 11월 17일 16시 52분부터 19시 8분(UTC)까지 종속봇은 GHCR(GitHub Container Registry)의 비율 제한에 도달했으며 SLO 내에서 작업의 약 57%를 완료하지 못했습니다.

문제를 완화하기 위해 우리는 Didabot이 작업을 시작하는 속도를 낮추고 GHCR 속도 제한을 늘렸습니다. 이로 인해 상황이 완화되고 사건이 해결되었습니다.

장기적으로는 향후 이러한 문제를 방지하는 데 도움이 되는 새로운 모니터와 경고를 추가할 예정입니다.

11월 18일 20:30 UTC (1시간 4분 동안 지속)

2025년 11월 18일 20:30부터 21:34 UTC까지 SSH 및 HTTP Git 클라이언트 상호 작용은 물론 원시 파일 액세스를 포함한 모든 Git 작업에서 오류가 발생했습니다. 이러한 실패는 Git 작업에 의존하는 제품에도 영향을 미쳤습니다.

근본 원인은 내부 서비스 간 통신에 사용되는 만료된 TLS 인증서였습니다. 만료된 인증서를 교체하고 영향을 받은 서비스를 다시 시작하여 사고를 완화했습니다. 해당 서비스가 다시 시작되면 완전히 복구되었습니다.

만료된 인증서를 포함하도록 경고를 업데이트했으며, 만료 전에 적절한 경고 및 자동화가 있는지 확인하기 위해 이 영역의 다른 인증서에 대한 감사를 수행하고 있습니다. 동시에 우리는 수동으로 관리되는 나머지 인증서를 제거하여 모든 서비스 간 통신이 완전히 자동화되도록 노력하고 있습니다.

11월 28일 05:59 UTC (2시간 24분 동안 지속)

2025년 11월 28일 약 05:59에서 08:24 UTC 사이에 Copilot은 Claude Sonnet 4.5 모델에 영향을 미치는 중단을 경험했습니다. 이 모델을 사용하려는 사용자는 대체 모델을 선택할 때까지 사용할 수 있는 모델이 없다는 HTTP 400 오류를 받았습니다. 다른 모델은 영향을 받지 않았습니다.

이 문제는 내부 서비스에 배포된 잘못된 구성으로 인해 발생했으며 이로 인해 Claude Sonnet 4.5가 사용할 수 없는 것으로 잘못 표시되었습니다. 구성 변경을 되돌려 문제가 식별되고 완화되었습니다. 우리는 향후 유사한 사고를 방지하기 위해 서비스 간 배포 보호 조치를 개선하기 위해 노력하고 있습니다.


상태 변경 및 사건 후 요약에 대한 실시간 업데이트를 보려면 상태 페이지를 팔로우하세요. 우리가 진행 중인 작업에 대해 자세히 알아보려면 GitHub 블로그의 엔지니어링 섹션을 확인하세요.

작성자:

야쿠브 올렉시

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다