강화 학습은 침묵 데이터 오류를 발견합니다

강화 학습은 침묵 데이터 오류를 발견합니다

대규모 데이터 센터의 고성능 칩의 경우 수학이적일 수 있습니다. Hyperscale 데이터 센터에서 진행되는 엄격한 계산 덕분에 수백만 개의 노드와 방대한 양의 실리콘으로 24 시간 내내 작동하면 매우 드문 오류가 나타납니다. 단순히 통계입니다. 이러한 희귀 한 “무음”데이터 오류는 기존의 품질 관리 상영 중에는 나타나지 않습니다.

이번 달 캘리포니아 주 몬트레이의 IEEE International Reliability Physics Symposium에서 Intel Engineers는 강화 학습을 사용하여 더 조용한 데이터 오류를 더 빨리 발견하는 기술을 설명했습니다. 회사는 기계 학습 방법을 사용하여 Xeon 프로세서의 품질을 보장하고 있습니다.

데이터 센터에서 오류가 발생하면 운영자는 노드를 다운하여 교체하거나 하위 스테이크 컴퓨팅에 결함 시스템을 사용할 수 있다고 애리조나 캠퍼스의 Intel ‘s Chandler의 전기 엔지니어 인 Manu Shamsa는 말합니다. 그러나 오류가 일찍 감지 될 수 있다면 훨씬 나을 것입니다. 이상적으로는 칩이 컴퓨터 시스템에 통합되기 전에 잡히는 것입니다. 컴퓨터 시스템에 설계 또는 제조 수정을 수행하여 향후 오류가 되풀이되는 것을 방지 할 수 있습니다.

“노트북에서는 오류가 나타나지 않을 것입니다. 데이터 센터에서,,, 정말 조밀 한 노드를 사용하면 별이 정렬되고 오류가 발생할 가능성이 높습니다.” – Manu Shamsa, Intel

이러한 결함을 찾는 것은 쉽지 않습니다. Shamsa는 엔지니어들이 그들에게 너무 당황했다고 농담을했다고 농담을했다고 농담을했다고 아인슈타인의 양자 얽힘에 대한 아인슈타인의 문구로 인해 으스스한 행동으로 인해해야한다고 말했다. 그러나 그들에 대해 으스스한 것은 없으며 Shamsa는 몇 년 동안 그들을 특징 짓는 데 보냈습니다. 작년 같은 회의에서 발표 된 논문에서 그의 팀은 이러한 오류의 원인에 대한 전체 카탈로그를 제공합니다. 대부분은 제조의 무한한 변화 때문입니다.

각 칩의 수십억 개의 트랜지스터가 기능적이더라도 서로 완전히 동일하지는 않습니다. 예를 들어, 주어진 트랜지스터가 온도, 전압 또는 주파수의 변화에 ​​반응하는 방식의 미묘한 차이는 오류로 이어질 수 있습니다.

이러한 미묘함은 컴퓨팅 속도와 방대한 양의 실리콘으로 인해 거대한 데이터 센터에서 자랄 가능성이 훨씬 높습니다. “노트북에서는 오류가 나타나지 않을 것입니다. 데이터 센터에서,,, 정말 조밀 한 노드를 사용하면 별이 정렬되고 오류가 발생할 가능성이 높습니다.”라고 Shamsa는 말합니다.

칩이 데이터 센터에 설치되어 몇 달 동안 작동 한 후에 만 ​​일부 오류가 발생할 수 있습니다. 트랜지스터의 특성의 작은 변형으로 인해 시간이 지남에 따라 저하 될 수 있습니다. Shamsa가 발견 한 이러한 조용한 오류 중 하나는 전기 저항과 관련이 있습니다. 처음에는 제대로 작동하는 트랜지스터는 표준 테스트를 통과하여 반바지를 찾아 사용하면 저항력이 높아지면서 사용하면 저항력이 높아집니다.

Shamsa는“모든 것이 괜찮다고 생각하지만 그 아래에 오류가 잘못된 결정을 내리고 있습니다. Shamsa는 시간이 지남에 따라 단일 트랜지스터의 약간의 약점 덕분에“한 명 이상은 충격을 볼 때까지 조용히 3 명으로갑니다”라고 Shamsa는 말합니다.

이 새로운 기술은 고유 테스트라고 불리는 침묵 오류를 감지하기위한 기존 방법 세트를 기반으로합니다. 이러한 테스트는 칩이 무성 오류를 분명히 만들기 위해 일정 기간 동안 반복적으로 수학 문제를 수행하게합니다. 그들은 임의의 데이터로 채워진 다양한 크기의 매트릭스에 대한 작업을 포함합니다.

많은 고유 테스트가 있습니다. 그것들을 모두 실행하는 데는 비현실적인 시간이 걸리므로 다람쥐는 무작위 접근 방식을 사용하여 관리 가능한 세트를 생성합니다. 이것은 시간을 절약하지만 오류는 감지되지 않은 잎을 남깁니다. Shamsa는“입력 선택을 안내하는 원칙은 없습니다. 그는 상대적으로 적은 수의 테스트가 더 많은 오류를 나타낼 수 있도록 선택을 안내하는 방법을 찾고 싶었습니다.

인텔 팀은 강화 학습을 사용하여 퓨즈 다중 정보 (FMA) 지침을 사용하여 매트릭스 곱셈을 수행하는 Xeon CPU 칩의 일부에 대한 테스트를 개발했습니다. Shamsa는 칩의 비교적 넓은 영역을 차지하기 때문에 FMA 영역을 선택했다고 밝혔다. 또한, 칩 의이 부분의 결함은 시스템의 다른 부분에 영향을 미치는 전자기장을 생성 할 수 있습니다. 또한 FMA가 사용되지 않을 때 전원을 절약하기 위해 꺼져 있기 때문에 테스트에는 반복적으로 위아래로 전원을 공급하는 것이 포함되며, 그렇지 않으면 표준 테스트에 나타나지 않는 숨겨진 결함을 활성화시킵니다.

훈련의 각 단계 동안, 강화 학습 프로그램은 잠재적으로 결함이있는 칩에 대한 다른 테스트를 선택합니다. 그것이 감지하는 각 오류는 보상으로 취급되며 시간이 지남에 따라 에이전트는 오류 감지 가능성을 극대화하는 테스트를 선택하는 방법을 배웁니다. 약 500 개의 테스트주기 후, 알고리즘은 어떤 EIGEN 테스트 세트가 FMA 영역의 오차 감지 속도를 최적화했는지 배웠습니다.

Shamsa는이 기술이 무작위 고유 테스트로 결함을 감지 할 가능성이 5 배라고 말합니다. 고유 테스트는 데이터 센터의 OpenDCDIAG의 일부인 오픈 소스입니다. 따라서 다른 사용자는 강화 학습을 사용하여 자체 시스템에 대한 이러한 테스트를 수정할 수 있어야한다고 그는 말합니다.

어느 정도까지, 침묵의 미묘한 결함은 제조 공정에서 피할 수없는 부분입니다. 그러나 Shamsa는 Intel 은이 연구를 사용하여 침묵의 데이터 오류로 이어지는 선구자를 찾는 방법을 배우려고 노력하고 있다고 말합니다. 그는 미래의 오류에 대한 조기 경고를 제공 할 수있는 적기가 있는지 여부와 칩 레시피 나 디자인을 변경할 수 있는지 여부를 조사하고 있습니다.

사이트 기사에서

웹 주변의 관련 기사

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다