Github 가용성 보고서 : 2025 년 6 월

Github 가용성 보고서 : 2025 년 6 월

6 월에는 3 건의 사건이 발생하여 GitHub 서비스에서 성능이 저하되었습니다.

6 월 5 일 17:47 UTC (1 시간 33 분 지속)

2025 년 6 월 5 일, 17:47 UTC와 19:20 UTC 사이에 행동 서비스가 저하되어 시작 지연과 간헐적 인 작업 실패가 발생했습니다. 이 기간 동안 런의 47.2%가 평균 14 분의 시작을 지연 시켰고, 21.0%의 런이 실패했습니다. 영향은 행동 자체를 넘어 확장되었습니다. Copilot Coding Agent 세션의 60%가 취소되었고 Branch 기반 빌드를 사용하는 모든 페이지가 배포되지 않았지만 (서비스를 제공하는 페이지는 영향을받지 않은 상태로 유지되었습니다). 이 문제는 내부 행동 서비스 사이의로드가 급증하여 실행 시작의 중요한 경로에서 요청이 조절되는 오해를 드러내는 데 발생했습니다. 스로틀 링을 방지하기 위해 서비스 구성을 수정하여 사건을 완화하고 올바른 구성이 앞으로 진행되도록 배포 프로세스를 업데이트했습니다.

6 월 12 일 17:55 UTC (3 시간 12 분 지속)

2025 년 6 월 12 일, 17:55 UTC와 21:07 UTC 사이에 Github Copilot 서비스는 gemini 모델에 대한 이용 불가능 성이 저하되고 Claude 모델의 가용성을 줄였습니다. 사용자는 채팅 완료, 응답 시간, 시간 초과 및 채팅 기능 인터럽트에 대한 오류율이 크게 높아졌습니다. 이는 모델 제공 업체 중 하나에 영향을 미치는 중단 때문입니다.

사용자 영향을 줄이기 위해 영향을받는 공급자 엔드 포인트를 일시적으로 비활성화하여 사건을 완화했습니다.

우리는 인프라 제공 업체 중단에 대한 사고 응답 플레이 북을 업데이트하고 모니터링 및 경고 시스템을 개선하여 향후 이와 같은 문제를 탐지하고 완화하는 데 시간을 줄이기 위해 노력하고 있습니다.

6 월 17 일 19:32 UTC (지속적인 31 분)

2025 년 6 월 17 일, 19:32 UTC와 20:03 UTC 사이에 네트워크 장치의 하위 집합에 대한 내부 라우팅 정책 배포는 데이터 센터 내의 특정 네트워크 주소 블록에 대한 도달 범위 문제를 일으켰습니다. GitHub.com UI의 인증 된 사용자는 사건 기간 동안 3-4%의 오류율을 경험했습니다. API의 인증 된 발신자는 40%의 오류율을 경험했습니다. UI 및 API에 대한 무단 요청은 거의 100% 오류율을 경험했습니다. 행동은 평균 8 분, 3%의 런이 실패한 경우 2.5%의 런을 경험했습니다. LFS (Large File Storage) 요청은 1% 오류가 발생했습니다. 19:54 UTC에 배포가 롤백되었고 영향을받는 시스템의 네트워크 가용성이 복원되었습니다. 20:03 UTC에서 정상 작업을 완전히 복원했습니다. 유사한 문제를 방지하기 위해 정책 변경을 위해 검증 프로세스를 확장하고 있습니다.


상태 변경 및 사후 요약에 대한 실시간 업데이트는 상태 페이지를 따르십시오. 우리가 작업하는 일에 대한 자세한 내용은 Github 엔지니어링 블로그를 확인하십시오.

작성자가 작성했습니다

나탈리 게바라

Jakub Oleksy

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다