logsumexp 기능 특성 : 에너지 기능을위한 레마
링크 표
초록 및 1 소개
2 관련 작업
3 모델 및 3.1 연관 기억
3.2 변압기 블록
4 새로운 에너지 기능
4.1 층 구조
5 교차 엔트로피 손실
6 개의 경험적 결과 및 6.1 반경의 경험적 평가
6.2 훈련 GPT-2
6.3 훈련 바닐라 변압기
7 결론과 인정
부록 A. 연기 된 테이블
부록 B. 에너지 기능의 일부 특성
부록 C. 섹션 5에서 연기 된 증거
부록 D. 변압기 세부 사항 : GPT-2를 예로 사용합니다
참조
부록 B. 에너지 기능의 일부 특성
아래에 정의 된 LogsumExp 함수의 유용한 속성을 소개합니다. 이것은 변압기 모델에 널리 사용되는 SoftMax 함수가 LogsumExp 함수의 기울기이기 때문에 특히 유용합니다. (Grathwohl et al., 2019)에 표시된 바와 같이, logsumexp는 A 분류기의 에너지 함수에 해당합니다.
레마 1 logsumexp (x) 볼록합니다.
증거
결과적으로, 우리는 최소 기능에 대해 다음과 같은 부드러운 근사치를 가지고 있습니다.
B.1 발의안 증명 2
저자 :
(1) Xueyan NIU, Central Research Institute, 2012 년 실험실, Huawei Technologies Co., Ltd.;
(2) Bo Bai Sad (.[email protected]);
(3) 레이 덩 (Lei Deng) ([email protected]);
(4) Wei Han ([email protected]).
이 논문은
Post Comment