데이터 과학자로서 실제로 통계를 사용하는 방법


이미지 기준: 표의문자
# 소개
데이터 과학이라는 단어를 들으면 아마도 프로그래밍과 통계라는 두 단어가 떠오를 것입니다. 실제로 통계 학습의 전제 조건으로 인해 사람들이 데이터 분야에서 경력을 쌓는 것을 방해하는 경우가 많습니다. 대부분의 데이터 과학 직무 설명에서는 현실이 완전히 다른데도 해당 역할을 성공적으로 수행하려면 통계학 박사 학위가 필요한 것처럼 보이게 만드는 데 도움이 되지 않습니다.
대부분의 데이터 과학 직책, 특히 제품 개발에 중점을 둔 기술 회사의 경우 다음 사항을 알아야 합니다. 응용통계. 여기에는 기존 통계 프레임워크를 사용하여 비즈니스 문제를 해결하는 것이 포함됩니다. 이는 학술 통계와 다릅니다(복잡한 수식을 손으로 계산하는 것을 생각해 보세요). 대신 개념이 무엇을 의미하는지, 기존 라이브러리를 사용해 이를 계산하는 방법, 해석하는 방법만 이해하면 됩니다. 예를 들면 다음과 같습니다. 대부분의 실제 데이터 과학 시나리오에서는 p-값 0.03이 무엇을 의미하는지, 이를 직접 계산하는 방법을 아는 것보다 이를 사용하여 비즈니스 결정을 내리는 방법을 이해하는 것으로 충분합니다.
이 기사에서는 이 지식을 얻기 위해 사용한 리소스와 함께 데이터 과학 업무에서 통계를 사용하는 방법에 대한 예를 제공합니다.
# 데이터 과학 작업에서 통계를 사용하는 방법
// 실험
대부분의 기술 회사(Google, Meta, Spotify)는 대규모 실험 문화를 가지고 있습니다. 기능을 변경하기 전에 엄격하게 테스트합니다.
A/B 테스트를 수행할 때 다음과 같은 통계 개념을 알아야 합니다.
- 실험에 필요한 표본 크기를 결정하는 통계적 검정력
- 의사결정을 위한 유의수준, p-값, 신뢰구간
p-값이 전체 내용을 전달하지 못하는 경우가 있으며, DID(차이차이) 추정과 같은 더 복잡한 형태의 분석을 배워야 합니다. 하지만 이는 내가 직장에서 기사를 읽고, 질문하고, 선배들과 토론하면서 얻은 개념들이다. 강좌나 대학 학위를 통해서도 필요한 모든 개념을 배우고 기억할 수는 없습니다. 데이터 과학 인터뷰를 통과하는 데 필요한 핵심 개념을 선택하고 업무 중 나머지 내용을 배우는 것이 좋습니다.
// 모델링
기계 학습 모델을 구축하려면 통계에 대한 지식이 필요합니다. 그러나 내 경험상 이러한 알고리즘의 배경이 되는 이론과 알고리즘 생성 방법을 배우는 것보다 기계 학습 모델에 대한 실무 지식을 갖는 것만으로도 충분했습니다.
물론 이것이 모든 산업에 적용되는 것은 아닙니다. 예측, 생물통계학 또는 계량경제학과 같은 전문 분야에서 일하는 데이터 과학자는 해당 분야와 관련된 심층적인 통계 지식을 보유해야 합니다.
그러나 내 경험에 따르면 제품 또는 기술 회사에서 일할 때 이러한 모델의 수학적 엄격함보다는 비즈니스 영향과 해석에 더 중점을 둡니다.
// 데이터 분석
또한 사용자가 제품과 상호 작용하는 방식을 이해하고 이 경험을 개선할 수 있는 방법에 대한 권장 사항을 제공하기 위해 데이터를 분석하는 데 상당한 시간을 소비합니다. 여기에는 일반적으로 시각화를 만들고, 고객 세분화를 수행하고, 데이터 분포를 비교하는 기술 통계가 포함됩니다. “지난 3개월 동안 고객 유지율이 감소한 이유”와 같은 대부분의 데이터 관련 질문은 간단한 시각화로 해결될 수 있으며 정교한 통계 방법을 사용할 필요가 없습니다.
실제로 평균, 중앙값, 최빈값 간의 차이를 알고 히스토그램 및 상자 그림과 같은 시각화를 구축할 수 있다면 이미 이러한 유형의 분석을 수행할 수 있는 지식을 갖춘 것입니다. 드물게 고급 회귀 기술을 사용하거나 시계열 모델을 구축해야 할 수도 있습니다. 다시 말하지만, 이것은 제가 직장에서 선배 동료, 문서 및 온라인 튜토리얼을 통해 주로 배우는 내용입니다.
# 데이터 과학을 위한 통계를 배우기 위한 세 가지 리소스
저는 컴퓨터 과학 학위를 갖고 있으며 통계를 거의 또는 전혀 배우지 않았습니다. 나의 모든 통계 지식은 온라인에서 찾은 리소스에서 비롯되었으며 가장 유용한 리소스 목록을 작성했습니다.
- Udacity의 통계 소개 완전 초보자에게 권장되며 기술통계, 추론통계, 확률을 다루고 있습니다.
- 통계퀘스트 특정 개념을 배우고 싶을 때 도움이 됩니다. 예를 들어 회귀가 어떻게 작동하는지 배우고 싶다면 이 채널에서 해당 주제와 관련된 20분 분량의 튜토리얼을 찾아보세요.
- edX의 통계 학습 무료로 청강할 수 있는 또 다른 훌륭한 강좌입니다. 이 학습 경로에서는 Python에서 통계 개념을 적용하여 대부분의 데이터 과학 작업과 관련되게 만드는 방법을 배웁니다.
# 테이크아웃
데이터 과학을 위해 통계를 배워야 한다는 생각이 겁나게 들릴 수도 있지만, 대부분의 데이터 과학 직업은 비즈니스 문제를 해결하기 위해 통계 개념을 적용하는 능력인 응용 통계를 알아야 합니다. 내 경험에 따르면 이러한 지식은 온라인 강좌를 통해 쉽게 얻을 수 있으며 통계학 석사 학위가 필요하지 않습니다.
이 문서에 나열된 리소스는 데이터 과학 인터뷰의 통계 부분을 이해하는 데 충분합니다. 이 이상의 지식은 해당 주제에 대한 기사와 논문을 지속적으로 읽고, 조직의 기존 프레임워크를 사용하고, 선임 데이터 과학자로부터 학습함으로써 업무 중에 얻을 수 있습니다.
나타샤 셀바라지 글쓰기에 대한 열정을 갖고 독학한 데이터 과학자입니다. Natssha는 모든 데이터 주제의 진정한 마스터이자 데이터 과학과 관련된 모든 것에 대해 글을 씁니다. LinkedIn에서 그녀와 소통하거나 YouTube 채널을 확인해 보세요.
Post Comment