AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 11월 5, 2025 0 Comments

완전 초보자를 위한 5가지 재미있는 데이터 과학 프로젝트

작성자별 이미지

# 소개

데이터 과학은 종종 기계 학습과 혼동되지만 실제로는 그 이상입니다. 의사 결정에 도움이 될 수 있는 유용한 패턴을 찾기 위해 데이터를 수집, 정리, 분석 및 시각화하는 것입니다. 머신러닝은 이 더 큰 그림의 작은 부분일 뿐입니다. 저는 실용적인 학습을 장려하기 위해 이 재미있는 프로젝트 시리즈를 시작했습니다. 왜냐하면 솔직히 말해서 끝없는 이론을 보고 데이터 과학을 배울 수는 없기 때문입니다. 건축을 통해 배웁니다.

이 기사에서는 기본 데이터 정리부터 데이터 탐색, 모델 구축, 실제 사용을 위한 배포까지 일반적인 데이터 과학 워크플로의 다양한 단계를 다루는 5개의 프로젝트를 선택했습니다.

# 1. 필요한 유일한 데이터 정리 프레임워크

이 비디오는 데이터 분석가로 일하는 Christine Jiang이 제작했으며, 그녀는 프로젝트에 참여하는 누구에게나 유용할 것이라고 생각하는 데이터 정리에 대한 매우 실용적인 접근 방식을 공유합니다. 데이터를 정리하는 동안 우리는 종종 “얼마나 깨끗한지”라고 생각합니다. Christine은 5단계 CLEAN 프레임워크를 사용하여 이를 처리하는 명확한 방법을 보여줍니다. 그녀는 “완벽함”을 목표로 하지 않고 해결할 수 있는 문제와 해결 불가능한 문제를 찾고, 가치를 표준화하고, 모든 것을 문서화하고, 반복하여 데이터를 신뢰할 수 있게 만드는 방법을 안내합니다. 누락된 국가 코드나 일관되지 않은 제품 설명을 수정하는 등 그녀가 사용하는 사례는 매우 관련성이 높으며 그녀가 강조하는 사고방식은 도구만큼 중요합니다. 나는 이것이 실제 데이터를 효과적으로 처리하려는 모든 사람에게 매우 실용적인 가이드라는 것을 알았습니다.

# 2. Pandas의 탐색적 데이터 분석

이 영상은 데이터만으로는 충분하지 않은 이유와 숫자를 주의 깊게 살펴보면 숨겨진 패턴을 드러낼 수 있는 방법을 보여줍니다. 발표자는 다음을 사용하여 데이터세트 검사, 분포 요약, 누락된 값 및 이상값 확인, 열 간의 관계 시각화 과정을 안내합니다. 팬더 그리고 씨본. 단순히 명령만 보여주는 것이 아니라, 각 단계가 왜 중요한지, 통계를 통해 언뜻 보면 명확하지 않은 것들을 어떻게 알 수 있는지 설명하기 때문에 정말 실용적이라고 생각했습니다. 이는 모델링을 시작하기 전에 실제 데이터를 탐색하고 의미 있는 통찰력을 얻고자 하는 모든 사람을 위한 훌륭한 가이드입니다.

# 3. Pandas와 Plotly를 이용한 데이터 시각화

Data Independent의 설립자인 Greg Kamadt가 만든 이 비디오에서는 데이터를 사용하여 스토리를 전달하는 것이 모델 구축만큼 중요하다는 사실을 보여줍니다. 그는 다음을 사용하여 실습 튜토리얼을 안내합니다. pandas 데이터 랭글링과 줄거리 대화형 차트의 경우 시각화를 효과적으로 만드는 기본 사항부터 시작합니다. 데이터를 로드 및 구성하고, 올바른 차트 유형을 선택하고, 차트를 명확하고 이해하기 쉽게 만드는 서식 지정을 추가하는 방법을 살펴보겠습니다. 이상값, 날짜 축, 집계와 같은 실제 문제를 처리하는 방법에 대한 팁과 작은 선택으로 가독성을 향상시킬 수 있는 방법이 포함되어 있어 얼마나 실용적인지 정말 마음에 들었습니다. 결국에는 통찰력을 효과적으로 전달하는 공유 가능한 대화형 차트를 만드는 방법을 알게 될 것입니다.

# 4. Python의 기계 학습을 위한 기능 엔지니어링 기법

데이터가 정리되고 이해되면 이제 더 나은 기능을 만들 차례입니다. 이 튜토리얼에서는 모델을 더 스마트하게 만들 수 있는 새로운 데이터 열을 변환하고 생성하는 “기능 엔지니어링” 단계에 중점을 둡니다. 강사는 범주형 변수 인코딩, 누락된 데이터 처리, 차원 축소(주성분 분석(PCA)) 및 상호 작용 항 생성과 같은 기술을 설명합니다. 데이터 유출, 과적합, 과도한 엔지니어링 기능 등 하지 말아야 할 사항도 강조하는 점이 마음에 듭니다. 이는 원시 데이터에서 실제 기계 학습을 위해 잘 설계된 기능을 구축하려는 모든 사람에게 훌륭한 리소스입니다.

# 5. Streamlit 앱에 기계 학습 모델 배포 및 실시간 예측 수행

마지막으로 가장 만족스러운 부분은 모델에 생명을 불어넣는 것입니다. 이 튜토리얼에서 Yiannis Pitsillides는 다음을 사용하여 훈련된 기계 학습 모델을 배포하는 방법을 보여줍니다. 스트림라이트. 그는 저장된 모델을 로드하고, 입력 상자와 버튼이 포함된 깔끔한 인터페이스를 설정하고, 자동차 가격에 대한 실시간 예측을 생성하는 과정을 안내합니다. 비디오에는 다음을 사용하여 기능 중요도 시각화도 포함되어 있습니다. Plotly그러면 어떤 입력이 가장 중요한지 확인할 수 있습니다. 원시 데이터와 정리된 데이터를 별도로 유지하고, 종속성을 처리하고, 로컬 또는 호스트에서 앱을 실행하는 방법에 대한 팁이 포함되어 있어 얼마나 실용적인지 마음에 들었습니다. 짧은 튜토리얼이지만 작업을 훌륭하게 수행하고 대부분의 초보자가 놓치는 “엔드 투 엔드” 경험을 제공합니다.

# 마무리

이 프로젝트는 데이터 과학 워크플로의 모든 주요 단계를 다루고 이론이 실제로 어떻게 구현되는지 보여줍니다. 데이터세트를 확보하고 실험을 시작하세요. 직접 해보는 것보다 데이터 과학을 배우는 더 좋은 방법은 없습니다.

칸왈 메린 데이터 과학과 AI와 의학의 교차점에 대한 깊은 열정을 가진 기계 학습 엔지니어이자 기술 작가입니다. 그녀는 “ChatGPT를 통한 생산성 극대화”라는 전자책을 공동 집필했습니다. 2022년 APAC Google Generation Scholar로서 그녀는 다양성과 학문적 우수성을 옹호하고 있습니다. 그녀는 또한 Tech Scholar, Mitacs Globalink Research Scholar 및 Harvard WeCode Scholar에서 Teradata Diversity로 인정받았습니다. Kanwal은 STEM 분야에서 여성의 역량을 강화하기 위해 FEMCodes를 설립한 변화에 대한 열렬한 옹호자입니다.

출처 참조