logsumexp 기능 특성 : 에너지 기능을위한 레마

logsumexp 기능 특성 : 에너지 기능을위한 레마

초록 및 1 소개

2 관련 작업

3 모델 및 3.1 연관 기억

3.2 변압기 블록

4 새로운 에너지 기능

4.1 층 구조

5 교차 엔트로피 손실

6 개의 경험적 결과 및 6.1 반경의 경험적 평가

6.2 훈련 GPT-2

6.3 훈련 바닐라 변압기

7 결론과 인정

부록 A. 연기 된 테이블

부록 B. 에너지 기능의 일부 특성

부록 C. 섹션 5에서 연기 된 증거

부록 D. 변압기 세부 사항 : GPT-2를 예로 사용합니다

참조

부록 B. 에너지 기능의 일부 특성

아래에 정의 된 LogsumExp 함수의 유용한 속성을 소개합니다. 이것은 변압기 모델에 널리 사용되는 SoftMax 함수가 LogsumExp 함수의 기울기이기 때문에 특히 유용합니다. (Grathwohl et al., 2019)에 표시된 바와 같이, logsumexp는 A 분류기의 에너지 함수에 해당합니다.

레마 1 logsumexp (x) 볼록합니다.

증거

결과적으로, 우리는 최소 기능에 대해 다음과 같은 부드러운 근사치를 가지고 있습니다.

B.1 발의안 증명 2

저자 :

(1) Xueyan NIU, Central Research Institute, 2012 년 실험실, Huawei Technologies Co., Ltd.;

(2) Bo Bai Sad (.[email protected]);

(3) 레이 덩 (Lei Deng) ([email protected]);

(4) Wei Han ([email protected]).


이 논문은 Arxiv에서 사용할 수 있습니다 CC By-NC-ND 4.0 증서 라이센스에 따라.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다