모든 기계 학습 엔지니어를 위한 5가지 무료 필수 도서

편집자 이미지

# 소개

대부분의 경우 프론트엔드 개발에서 흔히 볼 수 있듯이 무언가를 구축함으로써 더 잘 배울 수 있습니다. 처음 코딩을 시작했을 때 UI/UX, HTML, CSS에 대해 한 달 동안 읽었지만 여전히 간단한 인터페이스를 디자인하지 못했던 기억이 납니다. 이런 종류의 학습에는 연습, 프로젝트, 실무 경험이 필요하기 때문입니다.

머신러닝은 다릅니다. 이 분야에서는 이론에 대한 깊은 이해를 갖는 것이 더 보람이 있습니다. 다른 분야처럼 단순한 규칙만 적용하는 것이 아닙니다. 내부적으로 무슨 일이 일어나고 있는지 이해하지 못하면 장애물에 부딪히거나 모델에서 실수를 하기 쉽습니다. 그렇기 때문에 나는 머신러닝에 관한 고품질의 책을 읽어볼 것을 적극 권장합니다.

이 기사는 무료이지만 절대적으로 가치가 있는 책을 강조하는 새로운 시리즈의 일부입니다. 당신이 진지한 학습자이고 기초를 강화하고 싶다면 이 목록이 당신을 위한 것입니다. 첫 번째 추천부터 시작해 보겠습니다.

# 1. 머신러닝의 이해: 이론에서 알고리즘까지

기계 학습의 이해: 이론에서 알고리즘까지에서는 경험(훈련 데이터)을 전문 지식(예측 모델)으로 변환하는 방법에 대한 핵심 질문부터 시작하여 엄격하지만 원칙에 입각한 방식으로 기계 학습을 소개합니다. 기초적인 이론적 아이디어부터 실용적인 알고리즘 패러다임까지 구축됩니다. 학습 이면의 수학에 대한 광범위한 설명을 제공하고, 학습 작업의 통계적 및 계산적 복잡성을 모두 다루고, 확률적 경사하강법, 신경망, 구조화된 출력 학습과 같은 알고리즘 방법뿐만 아니라 PAC-Bayes 및 압축 경계와 같은 새로운 이론도 다룹니다. 블랙박스 모델을 사용하는 것 이상을 원하는 사람, 알고리즘이 왜 그렇게 작동하는지 이해하려는 사람에게 적합합니다.

// 개요 개요:

학습의 기초(핵심 학습 이론, 아마도 대략적으로 올바른(PAC) 학습, Vapnik–Chervonenkis(VC) 차원, 일반화, 편향-복잡도 절충)
알고리즘 및 최적화(선형 예측 변수, 신경망, 의사결정 트리, 부스팅, 확률적 경사하강법, 정규화)
모델 선택 및 실제 고려 사항(과적합, 과소적합, 교차 검증, 계산 효율성)
비지도 및 생성 학습(클러스터링, 차원 축소, 주성분 분석(PCA), 기대 최대화(EM) 알고리즘, 자동 인코더)
고급 이론 및 새로운 주제(커널 방법, 지원 벡터 머신(SVM), PAC-Bayes, 압축 경계, 온라인 학습, 구조화된 예측)

# 2. 머신러닝을 위한 수학

기계 학습을 위한 수학은 수학적 기초와 기계 학습의 핵심 기술 사이의 격차를 해소합니다. 이는 두 가지 주요 부분으로 구성됩니다. 첫 번째 부분에서는 선형 대수학, 미적분학, 확률 및 최적화와 같은 주요 수학 도구를 다룹니다. 두 번째 부분에서는 회귀, 분류, 밀도 추정 및 차원 축소와 같은 주요 기계 학습 작업에서 이러한 도구가 어떻게 사용되는지 보여줍니다. 많은 머신러닝 책에서는 수학을 부차적인 주제로 다루지만, 이 책은 수학에 초점을 맞춰 독자들이 머신러닝 모델을 실제로 이해하고 구축할 수 있도록 합니다.

// 개요 개요:

기계 학습을 위한 수학적 기초(선형 대수학, 분석 기하학, 행렬 분해, 벡터 미적분학, 확률 및 연속 최적화)
지도 학습 및 회귀(선형 회귀, 베이지안 회귀, 매개변수 추정, 경험적 위험 최소화)
차원 축소 및 비지도 학습(PCA, 가우스 혼합 모델, EM 알고리즘, 잠재 변수 모델링)
분류 및 고급 모델(SVM, 커널, 초평면 분리, 확률 모델링, 그래픽 모델)

# 3. 통계 학습 소개

통계 학습 소개(제 생각에는 현대 고전)는 통계 학습 분야에 대한 명확하고 실용적인 소개를 제공합니다. 통계 학습은 기본적으로 데이터를 사용하여 예측을 하고 패턴을 이해하는 방법입니다. 회귀, 분류, 리샘플링(모델이 얼마나 좋은지 확인하기 위해), 정규화(문제가 발생하지 않도록 하기 위해), 트리 기반 방법, SVM, 클러스터링, 심지어 딥 러닝, 생존 분석 및 많은 테스트를 한 번에 처리하는 것과 같은 새로운 주제와 같이 필요한 주요 도구를 다룹니다. 모든 장에는 실제 Python 기반 실습도 포함되어 있으므로 아이디어를 배울 뿐만 아니라 이를 코드로 변환하는 방법도 배울 수 있습니다.

// 개요 개요:

통계 학습 기초(통계 학습 소개, 지도 학습과 비지도 학습, 회귀와 분류, 모델 정확도, 편향-분산 균형)
선형 및 비선형 모델링(선형 회귀, 로지스틱 회귀, 일반화된 선형 모델, 다항 회귀, 스플라인 및 일반화된 가법 모델)
고급 예측 방법(트리 기반 방법, 앙상블 방법, SVM, 딥 러닝 및 신경망)
비지도 및 특수 기술(PCA, 클러스터링, 생존 분석, 검열된 데이터 및 다중 테스트 방법)

# 4. 패턴 인식 및 기계 학습

패턴 인식 및 기계 학습은 기계가 데이터에서 패턴을 인식하는 방법을 학습하는 방법을 가르칩니다. 불확실성에 대한 이해를 돕기 위해 확률과 의사결정의 기본부터 시작합니다. 그런 다음 선형 회귀, 분류, 신경망, SVM 및 커널 방법과 같은 중요한 기술을 다룹니다. 나중에 그래픽 모델, 혼합 모델, 샘플링 방법 및 순차 모델과 같은 고급 모델에 대해 설명합니다. 이 책은 단지 하나의 “최상의” 솔루션을 찾는 대신 불확실성을 처리하고 모델을 비교하는 데 도움이 되는 베이지안 접근 방식에 중점을 둡니다. 수학은 어려울 수 있지만 기계 학습에 대한 깊은 이해를 원하는 학생이나 엔지니어에게 적합합니다.

// 개요 개요:

기계 학습의 기초(확률 이론, 베이지안 방법, 결정 이론, 정보 이론 및 강력한 개념 기반 구축을 위한 차원의 저주)
핵심 모델(베이지안 접근 방식, 정규화 및 최적화 기술에 중점을 둔 선형 회귀 및 분류, 신경망, 커널 방법 및 희소 모델)
고급 방법(그래픽 모델, EM을 사용한 혼합 모델, 근사 추론 및 복잡한 확률 모델링을 위한 샘플링 방법)
특별 주제 및 응용(연속 잠재 변수 모델(PCA, 확률적 PCA, 커널 PCA), 순차 데이터(HMM(은닉 마르코프 모델), LDS(선형 역학 시스템), 입자 필터), 모델 조합 전략 및 데이터 세트, 분포 및 행렬 속성에 대한 실무 부록)

# 5. 머신러닝 시스템 소개

기계 학습 시스템 소개는 실제 기계 학습 시스템을 구축하는 방법, 즉 모델뿐만 아니라 이를 작동시키는 전체 설정을 보여줍니다. 모델 훈련 방법을 아는 것만으로는 충분하지 않은 이유를 설명하는 것으로 시작합니다. 또한 데이터 엔지니어링, 시스템 설계, 하드웨어와 소프트웨어가 만나는 방법, 실제 배포 방법, 작업을 안전하게 유지하는 방법도 알아야 합니다. 또한 실습 랩을 제공하며 단순한 모델 작성자가 아닌 엔지니어(하드웨어, 리소스 제약, 파이프라인, 안정성)처럼 생각해야 함을 강조합니다. 목표는 “모델이 있습니다”에서 “확장 가능하고 강력하며 실제 요구에 맞는 작동하는 AI 시스템이 있습니다”로 이동할 수 있는 언어, 프레임워크 및 엔지니어링 사고방식을 제공하는 것입니다.

// 개요 개요:

기초 및 설계 원칙(소개, 기계 학습 워크플로, 데이터 엔지니어링, 프레임워크, 교육 인프라를 포함한 기계 학습 시스템의 기본 아키텍처)
성능 엔지니어링(모델 최적화, 하드웨어 가속, 추론 효율성, 벤치마킹 및 시스템 수준 절충)
강력한 배포(MLOps(기계 학습 운영), 기기 내 학습, 보안 및 개인 정보 보호, 견고성, 신뢰성)
기계 학습 시스템의 개척자(지속 가능한 AI, 선을 위한 AI, 일반 인공 지능(AGI) 시스템, 새로운 연구 방향)

# 마무리

이 책들은 수학과 통계부터 실제 시스템에 이르기까지 기계 학습의 핵심 부분을 다루고 있습니다. 그들은 함께 이론 이해에서 기계 학습 모델 구축 및 사용에 이르기까지 명확한 경로를 제공합니다. 다음에는 어떤 주제를 다루어야 할까요? 댓글로 알려주세요.

칸왈 메린 데이터 과학과 AI와 의학의 교차점에 대한 깊은 열정을 가진 기계 학습 엔지니어이자 기술 작가입니다. 그녀는 “ChatGPT를 통한 생산성 극대화”라는 전자책을 공동 집필했습니다. 2022년 APAC Google Generation Scholar로서 그녀는 다양성과 학문적 우수성을 옹호하고 있습니다. 그녀는 또한 Tech Scholar, Mitacs Globalink Research Scholar 및 Harvard WeCode Scholar에서 Teradata Diversity로 인정받았습니다. Kanwal은 STEM 분야에서 여성의 역량을 강화하기 위해 FEMCodes를 설립한 변화에 대한 열렬한 옹호자입니다.

출처 참조