Github 가용성 보고서 : 2025 년 6 월
6 월에는 3 건의 사건이 발생하여 GitHub 서비스에서 성능이 저하되었습니다.
6 월 5 일 17:47 UTC (1 시간 33 분 지속)
2025 년 6 월 5 일, 17:47 UTC와 19:20 UTC 사이에 행동 서비스가 저하되어 시작 지연과 간헐적 인 작업 실패가 발생했습니다. 이 기간 동안 런의 47.2%가 평균 14 분의 시작을 지연 시켰고, 21.0%의 런이 실패했습니다. 영향은 행동 자체를 넘어 확장되었습니다. Copilot Coding Agent 세션의 60%가 취소되었고 Branch 기반 빌드를 사용하는 모든 페이지가 배포되지 않았지만 (서비스를 제공하는 페이지는 영향을받지 않은 상태로 유지되었습니다). 이 문제는 내부 행동 서비스 사이의로드가 급증하여 실행 시작의 중요한 경로에서 요청이 조절되는 오해를 드러내는 데 발생했습니다. 스로틀 링을 방지하기 위해 서비스 구성을 수정하여 사건을 완화하고 올바른 구성이 앞으로 진행되도록 배포 프로세스를 업데이트했습니다.
6 월 12 일 17:55 UTC (3 시간 12 분 지속)
2025 년 6 월 12 일, 17:55 UTC와 21:07 UTC 사이에 Github Copilot 서비스는 gemini 모델에 대한 이용 불가능 성이 저하되고 Claude 모델의 가용성을 줄였습니다. 사용자는 채팅 완료, 응답 시간, 시간 초과 및 채팅 기능 인터럽트에 대한 오류율이 크게 높아졌습니다. 이는 모델 제공 업체 중 하나에 영향을 미치는 중단 때문입니다.
사용자 영향을 줄이기 위해 영향을받는 공급자 엔드 포인트를 일시적으로 비활성화하여 사건을 완화했습니다.
우리는 인프라 제공 업체 중단에 대한 사고 응답 플레이 북을 업데이트하고 모니터링 및 경고 시스템을 개선하여 향후 이와 같은 문제를 탐지하고 완화하는 데 시간을 줄이기 위해 노력하고 있습니다.
6 월 17 일 19:32 UTC (지속적인 31 분)
2025 년 6 월 17 일, 19:32 UTC와 20:03 UTC 사이에 네트워크 장치의 하위 집합에 대한 내부 라우팅 정책 배포는 데이터 센터 내의 특정 네트워크 주소 블록에 대한 도달 범위 문제를 일으켰습니다. GitHub.com UI의 인증 된 사용자는 사건 기간 동안 3-4%의 오류율을 경험했습니다. API의 인증 된 발신자는 40%의 오류율을 경험했습니다. UI 및 API에 대한 무단 요청은 거의 100% 오류율을 경험했습니다. 행동은 평균 8 분, 3%의 런이 실패한 경우 2.5%의 런을 경험했습니다. LFS (Large File Storage) 요청은 1% 오류가 발생했습니다. 19:54 UTC에 배포가 롤백되었고 영향을받는 시스템의 네트워크 가용성이 복원되었습니다. 20:03 UTC에서 정상 작업을 완전히 복원했습니다. 유사한 문제를 방지하기 위해 정책 변경을 위해 검증 프로세스를 확장하고 있습니다.
상태 변경 및 사후 요약에 대한 실시간 업데이트는 상태 페이지를 따르십시오. 우리가 작업하는 일에 대한 자세한 내용은 Github 엔지니어링 블로그를 확인하십시오.
작성자가 작성했습니다
Post Comment