탐색적 데이터 분석을 위한 게으른 데이터 과학자 가이드

작성자별 이미지

# 소개

탐색적 데이터 분석(EDA)은 모든 데이터 프로젝트의 핵심 단계입니다. 이는 데이터 품질을 보장하고 통찰력을 생성하며 모델링을 시작하기 전에 데이터의 결함을 발견할 수 있는 기회를 제공합니다. 하지만 현실을 생각해보면 수동 EDA는 느리고 반복적이며 오류가 발생하기 쉬운 경우가 많습니다. 동일한 플롯, 검사 또는 요약 함수를 반복적으로 작성하면 시간과 주의가 소쿠리처럼 누출될 수 있습니다.

다행스럽게도 현재 자동화된 EDA 도구 제품군은 파이썬 생태계는 대부분의 작업에 대한 지름길을 허용합니다. 효율적인 접근 방식을 채택하면 20%의 작업만으로 80%의 통찰력을 얻을 수 있으며, 남은 시간과 에너지는 통찰력을 생성하고 의사 결정을 내리는 다음 단계에 집중할 수 있습니다.

# 탐색적 데이터 분석 EDA란 무엇입니까?

EDA의 핵심은 데이터 세트의 주요 특성을 요약하고 이해하는 프로세스입니다. 일반적인 작업은 다음과 같습니다.

누락된 값 및 중복 확인
주요 변수의 분포 시각화
기능 간의 상관 관계 탐색
데이터 품질 및 일관성 평가

EDA를 건너뛰면 잘못된 모델, 잘못된 결과, 잘못된 비즈니스 결정이 발생할 수 있습니다. 그렇지 않으면 불완전하거나 편향된 데이터를 기반으로 모델을 구축할 위험이 있습니다.

이제 이것이 필수라는 것을 알았으니 어떻게 더 쉽게 작업을 만들 수 있을까요?

# EDA 자동화를 위한 “게으른” 접근 방식

“게으른” 데이터 과학자가 된다는 것은 부주의하다는 것을 의미하지 않습니다. 효율적이라는 뜻이다. 매번 바퀴를 재발명하는 대신 자동화를 통해 반복적인 검사와 시각화를 수행할 수 있습니다.

이 접근 방식은 다음과 같습니다.

상용구 코드를 사용하지 않아 시간 절약
몇 분 안에 완전한 데이터 세트 개요를 생성하여 빠른 승리를 제공합니다.
결과를 생성하는 것보다 결과를 해석하는 데 집중할 수 있습니다.

그렇다면 이것을 어떻게 달성합니까? 기존의(종종 지루한) EDA 프로세스의 상당 부분을 이미 자동화하고 있는 Python 라이브러리와 도구를 사용합니다. 가장 유용한 옵션 중 일부는 다음과 같습니다.

// 팬더 프로파일링(현재 ydata 프로파일링)

ydata 프로파일링 분포, 상관 관계 및 누락된 값을 포함하는 한 줄의 코드로 전체 EDA 보고서를 생성합니다. 편향된 변수나 중복 열과 같은 문제에 자동으로 플래그를 지정합니다.

사용 사례: 새 데이터 세트에 대한 빠르고 자동화된 개요입니다.

// 스위트비즈

스위트비즈 데이터 세트 비교(예: 학습 대 테스트)에 초점을 맞춰 시각적으로 풍부한 보고서를 생성하고 그룹 또는 분할 간의 분포 차이를 강조합니다.

사용 사례: 서로 다른 데이터 세트 분할 간의 일관성을 검증합니다.

// 오토비즈

오토비즈 원시 데이터에서 직접 플롯(히스토그램, 산점도, 상자 플롯, 히트맵)을 생성하여 시각화를 자동화합니다. 수동으로 스크립팅하지 않고도 추세, 이상치, 상관 관계를 찾아내는 데 도움이 됩니다.

사용 사례: 빠른 패턴 인식 및 데이터 탐색.

// D-테일과 럭스

다음과 같은 도구 D-테일 그리고 럭스 팬더를 돌려 DataFrame탐색을 위해 대화형 대시보드로 이동합니다. 제안된 시각화 기능과 함께 GUI와 유사한 인터페이스(브라우저에서는 D-Tale, 노트북에서는 Lux)를 제공합니다.

사용 사례: 분석가를 위한 GUI와 유사한 경량 탐색.

# 여전히 수동 EDA가 필요한 경우

자동 보고서는 강력하지만 만능은 아닙니다. 때로는 모든 것이 계획대로 진행되는지 확인하기 위해 자체 EDA를 수행해야 하는 경우도 있습니다. 수동 EDA는 다음과 같은 경우에 필수적입니다.

기능 엔지니어링: 도메인별 변환 제작
도메인 컨텍스트: 특정 값이 나타나는 이유 이해
가설 테스트: 목표 통계 방법으로 가정 검증

기억하세요: “게으르다”는 것은 부주의하지 않고 효율적이라는 것을 의미합니다. 자동화는 결승선이 아니라 출발점이 되어야 합니다.

# Python 워크플로 예

모든 것을 하나로 모으기 위해 “게으른” EDA 워크플로우가 실제로 어떻게 보일 수 있는지는 다음과 같습니다. 목표는 모든 기반을 포괄할 수 있을 만큼 충분한 수동 검사와 자동화를 결합하는 것입니다.

import pandas as pd
from ydata_profiling import ProfileReport
import sweetviz as sv

# Load dataset
df = pd.read_csv("data.csv")

# Quick automated report
profile = ProfileReport(df, title="EDA Report")
profile.to_file("report.html")

# Sweetviz comparison example
report = sv.analyze([df, "Dataset"])
report.show_html("sweetviz_report.html")

# Continue with manual refinement if needed
print(df.isnull().sum())
print(df.describe())

이 워크플로의 작동 방식:

데이터 로딩: 데이터 세트를 팬더 DataFrame
자동화된 프로파일링: 달리다 ydata-profiling 분포, 상관 관계 및 누락된 값 확인이 포함된 HTML 보고서를 즉시 얻을 수 있습니다.
시각적 비교: 사용 Sweetviz 훈련/테스트 분할 또는 데이터세트의 다른 버전을 비교하려는 경우에 유용한 대화형 보고서를 생성합니다.
수동 개선: 몇 줄의 수동 EDA로 자동화를 보완합니다(Null 값, 요약 통계 또는 도메인과 관련된 특정 이상 사항 확인).

# “게으른” EDA에 대한 모범 사례

“게으른” 접근 방식을 최대한 활용하려면 다음 사례를 염두에 두세요.

먼저 자동화한 다음 개선하세요. 자동화된 보고서로 시작하여 기본 사항을 빠르게 다루되 여기서 멈추지 마십시오. 목표는 특히 심층 분석이 필요한 영역을 찾는 경우 조사하는 것입니다.
도메인 지식으로 교차 검증합니다. 항상 비즈니스 문제의 맥락 내에서 자동화된 보고서를 검토하십시오. 조사 결과를 검증하고 해석이 올바른지 확인하려면 해당 분야 전문가에게 문의하세요.
다양한 도구를 혼합하여 사용하세요. 단일 라이브러리로 모든 문제를 해결할 수는 없습니다. 시각화 및 대화형 탐색을 위한 다양한 도구를 결합하여 전체 범위를 보장합니다.
문서화하고 공유하세요. 생성된 보고서를 저장하고 팀원과 공유하여 투명성, 협업 및 재현성을 지원합니다.

# 마무리

탐색적 데이터 분석은 무시하기에는 너무 중요하지만 시간을 낭비할 필요는 없습니다. 최신 Python 도구를 사용하면 많은 무거운 작업을 자동화하여 통찰력을 희생하지 않고도 속도와 확장성을 제공할 수 있습니다.

“게으른”이란 부주의하지 않고 효율적이라는 것을 기억하세요. 자동화된 도구로 시작하고 수동 분석으로 개선하면 상용구 코드 작성 시간을 줄이고 데이터에서 가치를 찾는 데 더 많은 시간을 할애할 수 있습니다!

조셉 페레르 바르셀로나 출신의 분석 엔지니어입니다. 물리학공학과를 졸업하고 현재 인간 이동성에 적용되는 데이터 과학 분야에서 일하고 있다. 그는 데이터 과학 및 기술에 중점을 둔 시간제 콘텐츠 제작자입니다. Josep은 현장에서 진행 중인 폭발적인 적용을 다루면서 AI에 관한 모든 것에 대해 글을 씁니다.

출처 참조