변압기 교육에 대한 데이터 크기의 영향 : 과적 및 손실 역학
링크 표
초록 및 1 소개
2 관련 작업
3 모델 및 3.1 연관 기억
3.2 변압기 블록
4 새로운 에너지 기능
4.1 층 구조
5 교차 엔트로피 손실
6 개의 경험적 결과 및 6.1 반경의 경험적 평가
6.2 훈련 GPT-2
6.3 훈련 바닐라 변압기
7 결론과 인정
\ 부록 A. 연기 된 테이블
부록 B. 에너지 기능의 일부 특성
부록 C. 섹션 5에서 연기 된 증거
부록 D. 변압기 세부 사항 : GPT-2를 예로 사용합니다
\ 참조
6.2 훈련 GPT-2
\
\
\
::: 정보
저자 :
(1) Xueyan NIU, Central Research Institute, 2012 년 실험실, Huawei Technologies Co., Ltd.;
(2) 보 바이
(3) Lei Deng ([email protected]);
(4) Wei Han ([email protected]).
:::
::: 정보이 논문은입니다 Arxiv에서 사용할 수 있습니다 CC By-NC-ND 4.0 증서 라이센스에 따라.
:::
\
Post Comment