데이터 과학을위한 수학 학습 방법 : 초보자를위한 로드맵

$데이터 과학을위한 수학 학습 방법 초보자를위한 로드맵$ $데이터 과학을위한 수학 학습 방법 초보자를위한 로드맵$
저자의 이미지 | 표의 문자

데이터 과학에 들어가기 위해 엄격한 수학 또는 컴퓨터 과학 학위가 필요하지 않습니다. 그러나 알고리즘의 수학적 개념과 매일 사용할 분석을 이해해야합니다. 그러나 왜 이것이 어려운가요?

글쎄, 대부분의 사람들은 데이터 과학 수학에 거꾸로 접근합니다. 그들은 추상적 이론으로 바로 들어가서 압도 당하고 그만 두었습니다. 진실? 데이터 과학에 필요한 거의 모든 수학은 이미 알고있는 개념을 기반으로합니다. 점을 연결하고 이러한 아이디어가 실제 문제를 어떻게 해결하는지 확인하면됩니다.

이 로드맵은 실제로 실제로 중요한 수학적 기초에 중점을 둡니다. 이론적 토끼 구멍이없고 불필요한 복잡성이 없습니다. 도움이되기를 바랍니다.

1 부 : 통계 및 확률

통계는 데이터 과학에서 선택 사항이 아닙니다. 본질적으로 신호를 소음과 분리하고 방어 할 수있는 주장을하는 방법입니다. 통계적 사고가 없으면 멋진 도구로 교육을받은 추측을하고 있습니다.

중요한 이유 : 모든 데이터 세트가 이야기를 들려 주지만 통계는 그 이야기의 어느 부분이 실제인지 파악하는 데 도움이됩니다. 배포를 이해하면 데이터 품질 문제를 즉시 찾을 수 있습니다. 가설 테스트를 알면 A/B 테스트 결과가 실제로 무언가를 의미하는지 여부를 알 수 있습니다.

배울 것 : 설명 통계로 시작하십시오. 이미 알고 있듯이 여기에는 수단, 중앙값, 표준 편차 및 사 분위가 포함됩니다. 이것들은 단순한 요약 번호가 아닙니다. 분포를 시각화하고 데이터의 동작에 대해 다른 모양이 무엇을 말하는지 이해하는 법을 배우십시오.

확률은 다음에옵니다. 확률과 조건부 확률의 기본 사항을 배우십시오. 베이 에스의 정리는 조금 어려워 보일지 모르지만 새로운 증거로 신념을 업데이트하는 체계적인 방법 일뿐입니다. 이 사고 패턴은 스팸 탐지에서 의학적 진단에 이르기까지 어디에서나 나타납니다.

가설 테스트는 유효하고 입증 가능한 주장을하는 프레임 워크를 제공합니다. T- 테스트, 카이 제곱 테스트 및 신뢰 구간을 배우십시오. 더 중요한 것은 p- 값이 실제로 무엇을 의미하는지, 그리고 그들이 유용한 것과 오해의 소지가 있는지 이해하는 것입니다.

주요 리소스 :

코딩 구성 요소 : 실습 연습을 위해 Python ‘s Scipy.stats 및 Pandas를 사용하십시오. 요약 통계를 계산하고 실제 데이터 세트에서 관련 통계 테스트를 실행하십시오. Seaborn의 내장 데이터 세트와 같은 소스의 깨끗한 데이터로 시작한 다음 Messier Real 세계 데이터로 졸업 할 수 있습니다.

2 부 : 선형 대수

사용할 모든 기계 학습 알고리즘은 선형 대수에 의존합니다. 이해하면 이러한 알고리즘을 신비한 블랙 박스에서 자신있게 사용할 수있는 도구로 변환합니다.

필수 인 이유 : 데이터는 매트릭스에 있습니다. 따라서 필터링, 변환, 모델링 등의 모든 작업은 후드 아래에서 선형 대수를 사용합니다.

핵심 개념 : 벡터와 매트릭스에 먼저 중점을 둡니다. 벡터는 다차원 공간의 데이터 포인트를 나타냅니다. 매트릭스는 한 공간에서 다른 공간으로 데이터를 이동시키는 벡터 또는 변환 모음입니다. 매트릭스 곱셈은 단순히 산술이 아닙니다. 알고리즘이 정보를 변환하고 결합하는 방식입니다.

고유 값과 고유 벡터는 데이터의 기본 패턴을 나타냅니다. 주요 구성 요소 분석 (PCA) 및 기타 여러 차원 감소 기술 뒤에 있습니다. 공식을 암기하지 마십시오. 고유 값이 데이터에서 가장 중요한 방향을 보여줍니다.

실제 응용 프로그램 : 고급 라이브러리를 사용하기 전에 Numpy에서 매트릭스 작업을 구현합니다. 매트릭스 작업 만 사용하여 간단한 선형 회귀를 구축하십시오. 이 연습은 수학이 어떻게 작동하는지에 대한 이해를 강화할 것입니다.

학습 리소스 :

이 연습을 시도하십시오. 매우 간단한 아이리스 데이터 세트를 사용하고 eigendecomposition (Numpy를 처음부터 Numpy를 사용한 코드)을 사용하여 PCA를 수동으로 수행하십시오. 가장 중요한 정보를 보존하면서 수학이 4 가지 차원을 2로 줄이는 방법을 확인하십시오.

파트 3 : 미적분학

머신 러닝 모델을 훈련시킬 때 최적화를 통해 매개 변수의 최적 값을 학습합니다. 그리고 최적화를 위해서는 미적분학이 필요합니다. 복잡한 적분을 해결할 필요는 없지만 알고리즘이 성능을 향상시키는 방법을 이해하려면 파생 상품과 그라디언트를 이해해야합니다.

$학습 math-img$ $학습 math-img$
저자의 이미지 | 표의 문자

최적화 연결 : 모델이 트레일 할 때마다 미적분학을 사용하여 최상의 매개 변수를 찾습니다. 그라디언트 하강은 문자 그대로 파생물을 따라 최적의 솔루션을 찾습니다. 이 프로세스를 이해하면 훈련 문제를 진단하고 하이퍼 파라미터를 효과적으로 조정하는 데 도움이됩니다.

주요 영역 : 부분 파생 상품 및 기울기에 중점을 둡니다. 가장 가파른 증가 방향으로 구배가 지적된다는 것을 이해하면 그라디언트 하강이 왜 작동하는지 이해합니다. 손실 함수를 최소화하기 위해 가장 가파른 감소 방향을 따라 이동해야합니다.

어려운 경우 복잡한 통합 주위에 머리를 감싸지 마십시오. 데이터 과학 프로젝트에서는 대부분 파생 상품 및 최적화로 작업합니다. 필요한 미적분학은 변화율을 이해하고 최적의 포인트를 찾는 것입니다.

자원:

연습 : 간단한 선형 회귀 모델을 위해 그라디언트 하강을 처음부터 코딩하십시오. Numpy를 사용하여 그라디언트를 계산하고 매개 변수를 업데이트하십시오. 알고리즘이 최적의 솔루션으로 수렴하는 방법을 확인하십시오. 그러한 실습 연습은 어떤 양의 이론도 제공 할 수없는 직관을 구축합니다.

4 부 : 통계 및 최적화의 일부 고급 주제

기본에 익숙해지면이 분야는 전문 지식을 향상시키고보다 정교한 기술을 소개하는 데 도움이됩니다.

정보 이론 : 엔트로피 및 상호 정보는 기능 선택 및 모델 평가를 이해하는 데 도움이됩니다. 이러한 개념은 트리 기반 모델 및 기능 엔지니어링에 특히 중요합니다.

최적화 이론 : 기본 기울기 하강을 넘어서 볼록 최적화를 이해하면 적절한 알고리즘을 선택하고 수렴 보장을 이해하는 데 도움이됩니다. 이것은 실제 문제로 작업 할 때 매우 유용합니다.

베이지안 통계 : 빈번한 통계를 넘어 베이지안 사고로 이동하면 특히 불확실성을 처리하고 사전 지식을 통합하기위한 강력한 모델링 기술이 열립니다.

이러한 주제를 분리하지 않고 프로젝트별로 배우십시오. 추천 시스템을 작업 할 때는 매트릭스 인수 화에 더 깊이 빠져들게하십시오. 분류기를 구축 할 때 다른 최적화 기술을 탐색하십시오. 이러한 맥락 학습은 추상적 인 연구보다 더 나은 것입니다.

5 부 : 학습 전략은 무엇입니까?

통계로 시작하십시오. 즉시 유용하고 자신감을 키 웁니다. 실제 데이터 세트를 사용하여 설명 통계, 확률 및 기본 가설 테스트에 편안하게 2-3 주를 보내십시오.

다음에 선형 대수로 이동하십시오. 선형 대수의 시각적 특성으로 인해 매력적이며 차원 감소 및 기본 머신 러닝 모델의 즉각적인 응용 프로그램이 표시됩니다.

프로젝트에서 최적화 문제가 발생하면 미적분학을 점차적으로 추가하십시오. 머신 러닝을 시작하기 전에 미적분학을 마스터 할 필요는 없습니다. 필요한대로 배우십시오.

가장 중요한 조언 : 배우는 모든 수학적 개념과 함께 코드. 응용 프로그램이없는 수학은 단지 이론입니다. 즉각적인 실용적 사용을 가진 수학은 직관이됩니다. 간단하면서도 유용한 통계 분석, PCA 구현, 그라디언트 하강 시각화와 같은 각 개념을 보여주는 소규모 프로젝트를 구축하십시오.

완벽을 목표로하지 마십시오. 기능 지식과 자신감을 목표로합니다. 수학적 가정을 기반으로 기술 중에서 선택할 수 있어야하고 알고리즘의 구현을보고 그 뒤에있는 수학을 이해합니다.

마무리

학습 수학은 분명히 데이터 과학자로 성장하는 데 도움이 될 수 있습니다. 이 변화는 암기 나 학문적 엄격함을 통해 발생하지 않습니다. 일관된 실습, 전략 학습 및 수학적 개념을 실제 문제에 연결하려는 의지를 통해 발생합니다.

이 로드맵에서 한 가지를 얻는다면 다음과 같습니다. 데이터 과학에 필요한 수학은 학습 가능하고 실용적이며 즉시 적용됩니다.

이번 주 통계로 시작하십시오. 배우는 모든 개념과 함께 코드. 성장하는 이해를 보여주는 소규모 프로젝트를 구축하십시오. 6 개월 후에, 왜 데이터 과학의 수학이 위협적이라고 생각한 이유가 궁금합니다!

발라 프리 야 c 인도의 개발자이자 기술 작가입니다. 그녀는 수학, 프로그래밍, 데이터 과학 및 컨텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 지식에는 DevOps, 데이터 과학 및 자연어 처리가 포함됩니다. 그녀는 독서, 쓰기, 코딩 및 커피를 즐깁니다! 현재 그녀는 자습서, 방법 안내, 의견 조각 등을 통해 개발자 커뮤니티와 지식을 배우고 공유하는 작업을하고 있습니다. Bala는 또한 매력적인 리소스 개요 및 코딩 자습서를 만듭니다.

출처 참조