변압기 교육에 대한 데이터 크기의 영향 : 과적 및 손실 역학

변압기 교육에 대한 데이터 크기의 영향 : 과적 및 손실 역학

초록 및 1 소개

2 관련 작업

3 모델 및 3.1 연관 기억

3.2 변압기 블록

4 새로운 에너지 기능

4.1 층 구조

5 교차 엔트로피 손실

6 개의 경험적 결과 및 6.1 반경의 경험적 평가

6.2 훈련 GPT-2

6.3 훈련 바닐라 변압기

7 결론과 인정

\ 부록 A. 연기 된 테이블

부록 B. 에너지 기능의 일부 특성

부록 C. 섹션 5에서 연기 된 증거

부록 D. 변압기 세부 사항 : GPT-2를 예로 사용합니다

\ 참조

6.2 훈련 GPT-2

\
그림 4 : 바닐라 변압기 (Murty et al., 2023)의 설정에 따라 2M 질문 형성 데이터 세트에서 훈련 된 바닐라 변압기. 훈련 손실은 대략 1의 값으로 안정화되며, 이는 법안 4에 제시된 결과를 확증합니다.

\

\

::: 정보
저자 :

(1) Xueyan NIU, Central Research Institute, 2012 년 실험실, Huawei Technologies Co., Ltd.;

(2) 보 바이

(3) Lei Deng ([email protected]);

(4) Wei Han ([email protected]).

:::


::: 정보이 논문은입니다 Arxiv에서 사용할 수 있습니다 CC By-NC-ND 4.0 증서 라이센스에 따라.

:::

\

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다