모든 LLM 엔지니어가 꼭 읽어야 할 무료 도서 5권

작성자별 이미지

# 소개

많은 사람들이 LLM을 깊이 공부하고 싶어한다는 것을 알고 있습니다. 강좌와 기사는 더 넓은 지식을 얻는 데 좋지만, 깊이 있는 이해를 위해서는 책을 참조해야 합니다. 제가 개인적으로 책에 대해 좋아하는 또 다른 점은 책의 구조입니다. 때로는 여기저기서 느껴질 수 있는 코스에 비해 더 직관적이고 응집력 있는 순서를 가지고 있습니다. 이러한 동기를 바탕으로 우리는 독자들이 다양한 역할에 대해 5권의 무료이지만 그만한 가치가 있는 책을 추천할 수 있는 새로운 시리즈를 시작하고 있습니다. 따라서 LLM(대규모 언어 모델)이 실제로 어떻게 작동하는지 진지하게 이해하고 싶다면 다음을 권장합니다. 무료 도서 5권 당신이 시작해야 할 것입니다.

# 1. 대규모 언어 모델의 기초

2025년 초 출간, 대규모 언어 모델의 기초 LLM이 어떻게 구축되고, 훈련되고, 정렬되는지 실제로 이해하려는 모든 사람을 위해 작성된 가장 잘 구조화되고 개념적으로 명확한 책 중 하나입니다. 저자(Tong Xiao 및 Jingbo Zhu)는 둘 다 자연어 처리(NLP) 분야에서 잘 알려진 인물입니다. 모든 새로운 아키텍처나 트렌드를 서두르는 대신 GPT, BERT, LLaMA와 같은 최신 모델의 핵심 메커니즘을 주의 깊게 설명합니다.

이 책에서는 사전 훈련이 실제로 무엇을 의미하는지, 생성 모델이 내부적으로 어떻게 작동하는지, 프롬프트 전략이 왜 중요한지, 인간이 기계 동작을 미세 조정하려고 할 때 “정렬”이 실제로 포함되는 것과 같은 근본적인 사고를 강조합니다. 실험을 시작하기 전에 강력한 개념적 기반을 구축하려는 학생과 실무자 모두를 위해 설계된 이론과 구현 간의 사려 깊은 균형이라고 생각합니다.

// 개요 개요

사전 훈련(개요, 다양한 패러다임, 버트, 사전 훈련된 모델 조정 및 적용의 실제 측면 등)
생성 모델(디코더 전용 변환기, 데이터 준비, 분산 훈련, 확장 법칙, 메모리 최적화, 효율성 전략 등)
프롬프트(좋은 프롬프트 디자인의 원칙, 고급 프롬프트 방법, 프롬프트 최적화 기술)
정렬(LLM 정렬 및 RLHF, 명령어 튜닝, 보상 모델링, 선호도 최적화)
추론(디코딩 알고리즘, 평가 지표, 효율적인 추론 방법에 대한 지침)

# 2. 음성 및 언어 처리

NLP와 LLM을 깊이 이해하고 싶다면, 음성 및 언어 처리 Daniel Jurafsky와 James H. Martin이 작성한 최고의 자료 중 하나입니다. 제3판 초안(2025년 8월 24일 릴리스)은 Transformers, LLM, 자동 음성 인식(Whisper) 및 텍스트 음성 변환 시스템(EnCodec 및 VALL-E)을 포함한 최신 NLP를 다루도록 완전히 업데이트되었습니다. Jurafsky와 Martin은 컴퓨터 언어학 분야의 선두주자이며, 그들의 책은 일류 대학에서 널리 사용되고 있습니다.

토큰 및 임베딩과 같은 기본 사항부터 LLM 교육, 정렬 및 대화 구조와 같은 고급 주제에 이르기까지 명확하고 구조화된 접근 방식을 제공합니다. 초안 PDF는 무료로 제공되므로 실용적이고 접근하기 쉽습니다.

// 개요 개요

제1권: 대규모 언어 모델
- 1~2장: 소개, 단어, 토큰 및 유니코드 처리
- 3~5장: N-gram LM, 텍스트 분류를 위한 로지스틱 회귀 및 벡터 임베딩
- 6~8장: 신경망, LLM 및 변환기(샘플링 및 훈련 기술 포함)
- 9~12장: 학습 후 조정, 마스크된 언어 모델, IR 및 RAG 및 기계 번역
- 13장: RNN 및 LSTM(학습 시퀀스 모델의 선택적 순서)
- 14~16장: 음성학, 음성 특징 추출, 자동 음성 인식(Whisper) 및 텍스트 음성 변환(EnCodec & VALL-E)
제2권: 언어 구조에 주석 달기
- 17~25장: 시퀀스 라벨링, POS 및 NER, CFG, 종속성 구문 분석, 정보 추출, 의미론적 역할 라벨링, 어휘집, 상호 참조 해결, 담화 일관성 및 대화 구조

# 3. 모델 확장 방법: TPU의 LLM에 대한 시스템 보기

숫자가 엄청나고, 하드웨어가 복잡하고, 병목 현상이 발생하는 위치를 파악하기 어렵기 때문에 LLM 교육이 어려울 수 있습니다. 모델 확장 방법: TPU의 LLM에 대한 시스템 보기 TPU(및 GPU)가 내부적으로 작동하는 방식, 이러한 장치가 통신하는 방식, LLM이 실제 하드웨어에서 실제로 실행되는 방식과 같은 LLM의 성능 측면을 설명하기 위해 매우 실용적이고 시스템 지향적인 접근 방식을 취합니다. 또한 대규모 크기로 모델을 효율적으로 확장하기 위한 훈련 및 추론을 위한 병렬화 전략도 다룹니다.

이 리소스는 저자가 실제로 Google에서 프로덕션 수준의 LLM 시스템을 자체적으로 작업하여 학습 내용을 공유하기 때문에 눈에 띕니다.

// 개요 개요

파트 0: 루프라인(하드웨어 제약 이해: 플롭, 메모리 대역폭, 메모리)
1부: TPU(멀티 칩 훈련을 위해 TPU가 작동하고 네트워크로 연결되는 방식)
2부: 샤딩(행렬 곱셈, TPU 통신 비용)
3부: 변환기 수학(플롭, 바이트 및 기타 중요한 메트릭 계산)
4부: 교육(병렬성 전략: 데이터 병렬성, 완전 샤딩 데이터 병렬성(FSDP), 텐서 병렬성, 파이프라인 병렬성)
5부: LLaMA 교육(TPU v5p에서 Lama 3 교육의 실제 예, 비용, 샤딩, 크기 고려 사항)
6부: 추론(지연 시간 고려 사항, 효율적인 샘플링 및 가속기 활용)
7부: LLaMA 제공(TPU v5e에서 Lama 3-70b 모델 제공, kv 캐시, 배치 크기, 샤딩 및 생산 지연 시간 추정)
8부: 프로파일링(XLA 컴파일러 및 프로파일링 도구를 사용한 실제 최적화)
9부: JAX(JAX를 사용하여 TPU를 효율적으로 프로그래밍)

# 4. 대규모 언어 모델 이해: 탐색 분류자 및 자기 합리화를 사용한 엄격하고 목표화된 해석을 향하여

대규모 언어 모델 이해: 프로빙 분류자 및 자기 합리화를 사용하여 엄격하고 타겟이 명확한 해석을 향하여 일반적인 교과서는 아니다. Linköping University의 Jenny Kunz 박사 학위 논문이지만 LLM의 독특한 측면을 다루고 있어 이 목록에 포함될 가치가 있습니다. 그녀는 대규모 언어 모델이 작동하는 방식과 이를 더 잘 이해할 수 있는 방법을 탐구합니다.

LLM은 많은 작업에서 매우 우수한 성능을 발휘하지만 어떻게 예측하는지 명확하지 않습니다. 이 논문에서는 이러한 모델을 이해하는 두 가지 방법을 연구합니다. 즉, 프로빙 분류기를 사용하여 내부 레이어를 살펴보는 것과 모델이 예측을 위해 생성하는 설명을 검사하는 것입니다. 그녀는 또한 예측과 함께 자유 텍스트 설명을 생성하는 모델을 조사하여 이러한 설명의 어떤 속성이 실제로 다운스트림 작업에 도움이 되고 어떤 것이 인간의 직관과 일치하는지 탐구합니다. 이 작업은 보다 투명하고 책임감 있는 AI 시스템을 만드는 데 관심이 있는 연구원과 엔지니어에게 유용합니다.

// 개요 개요

프로빙 분류기를 사용한 LLM 레이어 이해(모델의 각 레이어에 저장된 정보 분석, 기존 프로빙 방법의 한계 확인, 데이터 변경을 사용하여 더욱 엄격한 프로빙 테스트 생성, 레이어가 알고 있는 차이를 측정하는 새로운 방법 개발)
자기 합리화 모델을 사용하여 예측 설명(모델 예측과 함께 텍스트 설명 생성, 인간 평가 및 작업 성능과 설명 비교, 작업에 유용한 설명과 이해하기 쉬운 속성 연구, 인간과 유사한 기능에 대한 설명에 주석 달기 및 다른 사용자에게 미치는 영향)

# 5. 사이버 보안의 대규모 언어 모델: 위협, 노출 및 완화

LLM은 매우 강력하지만 개인 정보 유출, 피싱 공격 지원, 코드 취약점 도입 등의 위험을 초래할 수도 있습니다. 사이버 보안의 대규모 언어 모델: 위협, 노출 및 완화 이러한 위험을 설명하고 이를 줄이는 방법을 보여줍니다. 사회 공학, LLM 채택 모니터링, 안전한 LLM 시스템 설정 등 실제 사례를 다룹니다.

이 리소스는 대부분의 LLM 책에서 다루지 않는 주제인 사이버 보안의 LLM에 초점을 맞추고 있다는 점에서 독특합니다. LLM과 관련된 위험과 보호를 모두 이해하려는 모든 사람에게 매우 유용합니다.

// 개요 개요

1부: 소개(LLM의 작동 방식 및 사용 방법, LLM의 한계 및 작업 평가)
2부: 사이버 보안의 LLM(개인 정보 유출 위험, 피싱 및 사회 공학 공격, 코드 제안의 취약성, LLM 지원 영향 운영 및 웹 인덱싱)
파트 IV: 완화(보안 교육 및 인식, 개인 정보 보호 교육 방법, 공격 및 적대적 사용에 대한 방어, LLM 감지기, 레드 팀 구성 및 안전 표준)
파트 V: 결론(위협 유발 및 방어 제공에서 LLM의 이중 역할, LLM의 안전한 사용을 위한 권장 사항)

# 마무리

이 다섯 권의 책은 모두 이론, 언어학, 시스템, 해석 가능성, 보안 등 매우 다른 각도에서 LLM에 접근합니다. 종합적으로, 이는 대규모 언어 모델 학습에 관심이 있는 모든 사람을 위한 완전한 학습 경로를 형성합니다. 이 기사가 마음에 들었다면 아래 댓글 섹션에서 더 자세히 살펴보고 싶은 주제를 알려주세요.

칸왈 메린 데이터 과학과 AI와 의학의 교차점에 대한 깊은 열정을 가진 기계 학습 엔지니어이자 기술 작가입니다. 그녀는 “ChatGPT를 통한 생산성 극대화”라는 전자책을 공동 집필했습니다. 2022년 APAC Google Generation Scholar로서 그녀는 다양성과 학문적 우수성을 옹호하고 있습니다. 그녀는 또한 Tech Scholar, Mitacs Globalink Research Scholar 및 Harvard WeCode Scholar에서 Teradata Diversity로 인정받았습니다. Kanwal은 STEM 분야에서 여성의 역량을 강화하기 위해 FEMCodes를 설립한 변화에 대한 열렬한 옹호자입니다.

출처 참조