Github 가용성 보고서 : 2025 년 1 월

Github 가용성 보고서 : 2025 년 1 월

1 월에는 3 건의 사건이 발생하여 GitHub 서비스에서 성능이 저하되었습니다.

1 월 9 일 1:26 UTC (지속적인 31 분)

2025 년 1 월 9 일, 01:26 UTC와 01:56 UTC 사이에 Github은 다양한 기능에 액세스하려고 할 때 500 개의 응답을받는 많은 서비스에 대한 광범위한 혼란을 경험했습니다. 이는 기본 데이터베이스 서버를 포화시키는 쿼리를 도입 한 배포 때문입니다. 평균적으로 오류율은 6%였으며 업데이트 요청의 6.85%에서 정점에 도달했습니다.

우리는 문제가있는 쿼리의 출처를 식별하고 배포를 롤백하여 사건을 완화 할 수있었습니다. 내부 툴링과 대시 보드는 문제가있는 쿼리를 신속하게 식별하는 데 도움이되는 관련 데이터를 나타 냈습니다. 잘못된 쿼리를 찾는 데 시간이 지남에 따라 총 14 분이 걸렸습니다.

그러나 우리는 배포 전에 문제가있는 쿼리를 감지하기 위해 툴링에 투자하여 향후 이와 같은 문제의 탐지 및 완화에 대한 시간을 방지하고 줄이기 위해 툴링에 투자하고 있습니다.

1 월 13 일 23:35 UTC (지속 49 분)

2025 년 1 월 13 일, 23:35 UTC와 00:24 UTC 사이에서 트래픽 라우팅 및 테스트와 관련된 구성 변경으로 인해 모든 GIT 작업을 사용할 수 없었습니다. 이는 내부로드 밸런서가 GIT의 의존하는 서비스 간의 요청을 삭제하게했습니다.

구성 변경을 롤백하여 사건을 완화했습니다.

우리는 모니터링 및 배포 관행을 개선하여 향후 이와 같은 문제에 대한 탐지 및 자동 완화 시간을 개선하고 있습니다.

1 월 30 일 14:22 UTC (26 분 지속)

2025 년 1 월 30 일, 14:22 UTC와 14:48 UTC 사이에 GitHub.com에 대한 웹 요청은 실패를 경험했으며 (정점에 오류율은 44%) 평균 성공적인 요청은 3 초를 완료하는 데 걸렸습니다.

이 정전은 속도 제한을 지원하는 캐싱 레이어의 하드웨어 고장으로 인해 발생했습니다. 또한 캐싱 레이어에 대한 자동 장애 조치가 부족하여 충격이 연장되었습니다. 유사한 상황에서 문제가 다시 발생하지 않도록 회복 후 신뢰할 수있는 하드웨어의 수동 장애 조치가 회복 후 수행되었습니다.

이 사건의 결과로, 우리는 고 가용성 캐시 구성으로 이동 하고이 계층의 캐시 실패에 탄력성을 추가하여 미래에 유사한 상황이 발생하면 요청을 처리 할 수 ​​있도록 요청을 처리 할 수 ​​있습니다.


상태 변경 및 사후 요약에 대한 실시간 업데이트는 상태 페이지를 따르십시오. 우리가 작업하는 일에 대한 자세한 내용은 Github 엔지니어링 블로그를 확인하십시오.

작성자가 작성했습니다

Jakub Oleksy

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다