데이터 과학에서 실제로 사용할 확률 개념


작성자별 이미지
# 소개
분야에 진출하다 데이터 과학당신은 아마 당신에게 말했을 것입니다 ~ 해야 하다 확률을 이해하라. 사실이지만 통계 교과서의 모든 정리를 이해하고 기억해야 한다는 의미는 아닙니다. 당신에게 정말로 필요한 것은 실제 프로젝트에서 끊임없이 나타나는 확률 아이디어를 실제로 이해하는 것입니다.
이 기사에서는 모델을 구축하고, 데이터를 분석하고, 예측할 때 실제로 중요한 확률 필수 사항에 중점을 둘 것입니다. 현실 세계에서는 데이터가 지저분하고 불확실합니다. 확률은 불확실성을 정량화하고 정보에 입각한 결정을 내릴 수 있는 도구를 제공합니다. 이제 매일 사용하게 될 주요 확률 개념을 분석해 보겠습니다.
# 1. 무작위 변수
확률변수는 단순히 우연히 그 값이 결정되는 변수. 각각 특정 확률을 지닌 다양한 값을 담을 수 있는 컨테이너라고 생각하세요.
지속적으로 작업하게 될 두 가지 유형이 있습니다.
이산확률변수 셀 수 있는 값을 취합니다. 예를 들어 웹사이트를 방문하는 고객 수(0, 1, 2, 3…), 일괄적으로 결함이 있는 제품 수, 동전 뒤집기 결과(앞면 또는 뒷면) 등이 있습니다.
연속확률변수 주어진 범위 내의 모든 값을 취할 수 있습니다. 예를 들어 온도 측정값, 서버 장애가 발생할 때까지의 시간, 고객 평생 가치 등이 포함됩니다.
다양한 유형의 변수에는 다양한 확률 분포와 분석 기술이 필요하기 때문에 이러한 구별을 이해하는 것이 중요합니다.
# 2. 확률분포
확률 분포는 무작위 변수가 취할 수 있는 모든 가능한 값과 각 값이 나타날 가능성을 설명합니다.. 모든 기계 학습 모델은 데이터의 기본 확률 분포에 대해 가정합니다. 이러한 분포를 이해하면 모델의 가정이 유효한 경우와 그렇지 않은 경우를 알 수 있습니다.
// 정규분포
정규 분포(또는 가우스 분포)는 데이터 과학의 모든 곳에 있습니다. 종형 곡선 모양이 특징이며, 대부분의 값이 평균을 중심으로 모여 있고 양쪽에서 대칭적으로 점점 가늘어집니다.
많은 자연 현상은 정규 분포(키, 측정 오류, IQ 점수)를 따릅니다. 많은 통계 검정에서는 정규성을 가정합니다. 선형 회귀에서는 잔차(예측 오류)가 정규 분포를 따르는 것으로 가정합니다. 이 분포를 이해하면 모델 가정을 검증하고 결과를 올바르게 해석하는 데 도움이 됩니다.
// 이항 분포
이항 분포는 각 시행이 동일한 성공 확률을 갖는 고정된 횟수의 독립적 시행에서 성공 횟수를 모델링합니다. 동전을 10번 던져 앞면이 나오는지 계산하거나, 광고 100개를 게재하고 클릭수를 계산한다고 생각해 보세요.
이를 사용하여 클릭률, 전환율, A/B 테스트 결과 및 고객 이탈( 이탈 여부: 예/아니요?)을 모델링합니다. 여러 번의 시도를 통해 “성공” 대 “실패” 시나리오를 모델링할 때마다 이항 분포가 도움이 됩니다.
// 포아송 분포
포아송 분포는 고정된 시간 또는 공간 간격에서 발생하는 사건의 수를 모델링합니다. 이때 이러한 사건은 일정한 평균 비율로 독립적으로 발생합니다. 핵심 매개변수는 평균 발생률을 나타내는 람다(\(\lambda\))입니다.
포아송 분포를 사용하여 일일 고객 지원 티켓 수, 시간당 서버 오류 수, 희귀 이벤트 예측 및 이상 감지를 모델링할 수 있습니다. 알려진 평균 비율로 개수 데이터를 모델링해야 하는 경우 포아송 분포가 사용됩니다.
# 3. 조건부 확률
조건부 확률은 다른 사건이 이미 발생한 상황에서 어떤 사건이 발생할 확률입니다. 이것을 \( P(A|B) \)로 쓰고, “B가 주어졌을 때 A의 확률”로 읽습니다.
이 개념은 기계 학습의 절대적으로 기본입니다. 분류기를 구축할 때 기본적으로 \( P(\text{class}|\text{features}) \): 입력 특성이 주어진 클래스의 확률을 계산합니다.
이메일 스팸 감지를 고려해보세요. 우리는 \( P(\text{Spam} | \text{contains “free”}) \)를 알고 싶습니다. 이메일에 “free”라는 단어가 포함되어 있으면 스팸일 확률은 얼마나 됩니까? 이를 계산하려면 다음이 필요합니다.
- \( P(\text{Spam}) \): 이메일이 스팸일 전체 확률(기본 비율)
- \( P(\text{contains “free”}) \): 이메일에 “무료”라는 단어가 얼마나 자주 나타나는지
- \( P(\text{contains “free”} | \text{Spam}) \): 스팸 이메일에 “무료”가 포함되는 빈도
마지막 조건부 확률은 우리가 분류에 대해 정말로 관심을 갖는 부분입니다. 이것이 Naive Bayes 분류기의 기초입니다.
모든 분류기는 조건부 확률을 추정합니다. 추천 시스템은 \( P(\text{사용자가 좋아하는 항목} | \text{사용자 기록}) \)를 사용합니다. 의료 진단은 \( P(\text{질병} | \text{증상}) \)을 사용합니다. 조건부 확률을 이해하면 모델 예측을 해석하고 더 나은 특성을 구축하는 데 도움이 됩니다.
# 4. 베이즈 정리
베이즈 정리는 데이터 과학 툴킷에서 가장 강력한 도구 중 하나입니다. 이는 우리가 새로운 증거를 얻었을 때 어떤 것에 대한 우리의 믿음을 업데이트하는 방법을 알려줍니다.
수식은 다음과 같습니다.
\[
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
\]
의료 테스트 사례를 통해 이를 분석해 보겠습니다. 95% 정확한 진단 테스트를 상상해 보십시오(실제 사례를 감지하고 사례가 아닌 사례를 배제하는 데 모두). 질병 유병률이 인구의 1%에 불과하고 귀하가 양성 반응을 보인다면 귀하가 해당 질병을 앓고 있을 실제 확률은 얼마나 됩니까?
놀랍게도 그 비율은 16%에 불과합니다. 왜? 보급률이 낮기 때문에 거짓 긍정이 참 긍정보다 더 많기 때문입니다. 이는 다음과 같은 중요한 통찰력을 보여줍니다. 기준금리 오류: 기본 요율(유병률)을 고려해야 합니다. 유병률이 증가함에 따라 양성 테스트가 귀하가 정말로 긍정적이라는 것을 의미할 확률은 극적으로 증가합니다.
이를 사용할 위치: A/B 테스트 분석(어떤 버전이 더 나은지에 대한 믿음 업데이트), 스팸 필터(더 많은 기능이 표시될 때 스팸 확률 업데이트), 사기 탐지(여러 신호 결합) 및 새로운 정보로 예측을 업데이트해야 할 때마다.
# 5. 기대값
기대값은 어떤 작업을 여러 번 반복했을 때 기대할 수 있는 평균 결과입니다. 가능한 각 결과에 확률을 적용한 다음 해당 가중치를 합산하여 계산합니다.
이 개념은 데이터 기반 비즈니스 결정을 내리는 데 중요합니다. $10,000의 비용이 드는 마케팅 캠페인을 생각해 보세요. 귀하는 다음을 추정합니다.
- 큰 성공 확률 20% ($50,000 이익)
- 적당한 성공 확률 40%($20,000 이익)
- 실적이 저조할 확률 30%(이익 $5,000)
- 완전한 실패 확률 10%(수익 $0)
예상 값은 다음과 같습니다.
\[
(0.20 \times 40000) + (0.40 \times 10000) + (0.30 \times -5000) + (0.10 \times -10000) = 9500
\]
이는 긍정적인 결과($9500)이므로 기대 가치 관점에서 캠페인을 시작할 가치가 있습니다.
가격 책정 전략 결정, 리소스 할당, 기능 우선 순위 지정(기능 X 구축의 예상 가치), 투자 위험 평가 및 여러 불확실한 결과를 평가해야 하는 모든 비즈니스 결정에 이를 사용할 수 있습니다.
# 6. 대수의 법칙
그만큼 대수의 법칙 더 많은 샘플을 수집할수록 샘플 평균이 예상 값에 가까워진다는 것입니다. 이것이 데이터 과학자들이 항상 더 많은 데이터를 원하는 이유입니다.
공정한 동전을 던지면 초기 결과에 앞면이 70% 표시될 수 있습니다. 하지만 10,000번 뒤집으면 앞면이 거의 50%에 가까워집니다. 더 많은 샘플을 수집할수록 추정치의 신뢰성이 높아집니다.
이것이 바로 작은 샘플의 측정항목을 신뢰할 수 없는 이유입니다. 변형당 50명의 사용자를 대상으로 한 A/B 테스트에서는 한 버전이 우연히 승리한 것으로 나타날 수 있습니다. 변형당 5,000명의 사용자를 대상으로 동일한 테스트를 수행하면 훨씬 더 신뢰할 수 있는 결과를 얻을 수 있습니다. 이 원칙은 통계적 유의성 테스트와 표본 크기 계산의 기초가 됩니다.
# 7. 중심극한정리
그만큼 중심 극한 정리 (CLT)는 아마도 통계에서 가장 중요한 단일 아이디어일 것입니다. 충분히 큰 표본을 가져와 평균을 계산하면 해당 표본 평균은 원본 데이터가 그렇지 않더라도 정규 분포를 따른다는 것을 나타냅니다.
이는 충분한 샘플이 있는 한(일반적으로 \( n \geq 30 \)이면 충분하다고 간주됨) 거의 모든 유형의 데이터에 대한 추론을 위해 정규 분포 도구를 사용할 수 있다는 의미이므로 유용합니다.
예를 들어, 지수 분포(매우 치우침)에서 샘플링하고 크기가 30인 표본의 평균을 계산하는 경우 해당 평균은 대략 정규 분포를 따릅니다. 이는 균일 분포, 이봉 분포 및 생각할 수 있는 거의 모든 분포에 적용됩니다.
이것이 신뢰 구간, 가설 테스트, A/B 테스트의 기초입니다. 이것이 바로 표본 통계로부터 모집단 매개변수에 대한 통계적 추론을 할 수 있는 이유입니다. 이는 데이터가 완벽하게 정규적이지 않은 경우에도 t-테스트와 z-테스트가 작동하는 이유이기도 합니다.
# 마무리
이러한 확률 아이디어는 독립된 주제가 아닙니다. 이는 모든 데이터 과학 프로젝트 전반에 걸쳐 사용할 툴킷을 형성합니다. 연습을 많이 할수록 이런 사고방식은 더욱 자연스러워집니다. 작업하면서 스스로에게 계속 물어보세요.
- 나는 어떤 분포를 가정하고 있습니까?
- 어떤 조건부 확률을 모델링하고 있나요?
- 이 결정의 기대 가치는 무엇입니까?
이러한 질문은 당신을 더 명확한 추론과 더 나은 모델로 이끌 것입니다. 이러한 기초에 익숙해지면 데이터, 모델 및 그것이 제공하는 결정에 대해 더 효과적으로 생각할 수 있습니다. 이제 멋진 것을 만들어 보세요!
소녀 프리야C 인도 출신의 개발자이자 기술 작가입니다. 그녀는 수학, 프로그래밍, 데이터 과학, 콘텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 및 전문 분야에는 DevOps, 데이터 과학, 자연어 처리가 포함됩니다. 그녀는 읽기, 쓰기, 코딩, 커피를 즐깁니다! 현재 그녀는 튜토리얼, 방법 가이드, 의견 등을 작성하여 개발자 커뮤니티에서 자신의 지식을 학습하고 공유하는 데 힘쓰고 있습니다. Bala는 또한 매력적인 리소스 개요와 코딩 튜토리얼을 만듭니다.



Post Comment