바쁜 데이터 과학자를위한 5 개의 유용한 파이썬 스크립트

저자의 이미지 | 표의 문자

틀 소개

실제로 데이터를 분석하는 것보다 파일 형식과 데이터 정리로 더 많은 시간을 보내는 경우 혼자가 아닙니다. 대부분의 데이터 전문가는보다 도전적이고 중요한 작업에 중점을 둔 반복적 인 작업에서 시간의 60-80%를 낭비합니다.

이 기사에서는 아래의 유용한 파이썬 스크립트 몇 개를 모아 일반적인 데이터 워크 플로우에서 지루하지만 필수 작업을 단순화했습니다.
🔗 Github의 코드 링크

틀 1. 데이터 품질 검사기

고통 지점: 새로운 데이터 세트를 열는 것은 종종 압도적입니다. 결 측값이 있습니까? 복제물? 이상한 데이터 유형? 몇 시간 동안 분석 후 데이터 문제를 발견하거나 더 나쁘게 동일한 탐색 코드를 작성하거나 더 나쁘게 작성하게됩니다.

대본이하는 일: 주어진 데이터 프레임을 처리하고 결 측값, 복제, 특이 치 등 정보가 포함 된 간결한 데이터 품질 보고서를 생성하는 간단한 Python 스크립트. 그런 다음 모든 것을 필요에 따라 읽을 수있는 읽을 수있는 텍스트 파일에 저장합니다.

작동 방식: 스크립트는 팬더 내장 방법을 사용하여 공통 데이터 품질 문제 (복제, 결 측값, 잘못된 데이터 유형)를 체계적으로 확인하고 백분율 및 통계를 계산 한 다음 모든 것을 깨끗한 보고서로 형식화합니다. 이상적인 데이터 분포에 걸쳐 안정적으로 작동하는 이상치 감지에 IQR (Interquiltile Range) 방법을 사용합니다.

⏩ 데이터 품질 검사기 스크립트를 받으십시오

틀 2. 스마트 파일 합병

고통 지점: 귀하의 데이터는 CSV 파일, Excel Sheet 및 JSON 내보내기가 폴더에 흩어져 있습니다. 수동으로 결합한다는 것은 각 파일을 열고, 열 정렬을 확인하고, 복사 할 수 있고, 아무것도 깨지지 않는 것을 의미합니다. 예, 하나의 불일치 한 열로는 모든 것을 망치기에 충분합니다.

대본이하는 일: 형식 (CSV, Excel, JSON)에 관계없이 폴더에서 모든 데이터 파일을 자동으로 찾아서 결합합니다. 열 불일치를 우아하게 처리하고 어떤 데이터가 어떤 소스 파일에서 왔는지 추적합니다.

작동 방식: 스크립트는 디렉토리를 통과하고 지원되는 파일 유형을 식별하고 각 형식에 적합한 팬더 리더를 사용하며 Pandas의 강력한 병합 로직을 사용하여 모든 것을 연결합니다. 소스 열을 추가하여 항상 데이터를 원점으로 추적 할 수 있습니다.

⏩ 스마트 파일 합병 스크립트를 얻으십시오

틀 3. 데이터 세트 프로파일

고통 지점: 새로운 데이터 세트를 이해하려면 수십 줄의 탐색 코드를 작성해야합니다. describe(),,, value_counts()상관 관계 행렬, 결 측값 분석. 탐험을 마치면 분석하려는 것을 잊어 버렸을 것입니다.

대본이하는 일: 요약 통계, 상관 히트 맵, 범주 형 분석 및 메모리 최적화 제안을 포함하여 몇 초 만에 전체 데이터 세트 프로파일을 생성합니다. 문서 및보고에 유용한 시각화를 만듭니다.

작동 방식: 스크립트는 숫자 및 범주형 열을 분리하고 각 유형에 적절한 분석 방법을 적용하고 Seaborn 및 Matplotlib을 사용하여 시각화를 생성하며 데이터 패턴을 기반으로 실행 가능한 최적화 권장 사항을 제공합니다.

⏩ 데이터 세트 프로파일 러 스크립트를 가져옵니다

틀 4. 데이터 버전 관리자

고통 지점: 당신은 당신의 데이터 세트를 변경하고, 무언가 잘못되었다는 것을 깨닫고, 돌아갈 길이 없습니다. 또는 지난 주 데이터의 모습을 클라이언트에게 보여 주어야하지만 동일한 파일을 덮어 쓰고 있습니다. 데이터에 대한 버전 제어는 종종 어려운 일입니다. 데이터 버전 제어를 단순화하는 도구가 있습니다. 그러나 간단한 파이썬 스크립트도 더 간단하고 효과적입니다.

대본이하는 일: 설명으로 타임 스탬프 된 버전의 데이터 프레임을 자동으로 저장하고 파일 해시를 추적하여 변경 사항을 감지하며 이전 버전으로 즉시 롤백 할 수 있습니다. 저장 공간을 관리하기위한 정리 도구가 포함되어 있습니다.

작동 방식: 스크립트는 메타 데이터 로깅이있는 구조화 된 백업 시스템을 만듭니다. MD5 해싱을 사용하여 실제 변경 사항 (중복 저장 방지)을 감지하고 타임 스탬프 및 설명으로 모든 버전의 CSV 로그를 유지하며 이전 버전을 나열하고 복원하는 간단한 방법을 제공합니다.

⏩ 데이터 버전 관리자 스크립트를 받으십시오

틀 5. 다중 형식 데이터 수출 업체

고통 지점: 다른 사람들은 다른 형식의 데이터를 원합니다. 분석가들은 아마도 형식의 헤더가있는 깨끗한 스프레드 시트를 원할 것입니다. 개발자 팀은 메타 데이터와 함께 JSON이 필요합니다. 데이터베이스 관리자는 SQLITE를 원합니다. 다른 설정 및 서식 규칙으로 각 형식을 수동으로 생성하게됩니다.

대본이하는 일: 처리 된 데이터를 여러 전문 형식으로 동시에 내 보냅니다. 여러 시트, 메타 데이터가 포함 된 구조화 된 JSON, CLEN CSV 파일 및 적절한 스키마가있는 SQLITE 데이터베이스로 형식의 Excel 파일을 만듭니다.

작동 방식: 스크립트는 형식 별 최적화 기술을 사용합니다. Excel 파일 스타일 헤더 및 자동 크기 열, JSON 내보내기에는 메타 데이터 및 적절한 데이터 유형 정보가 포함되며 CSV 파일은 구분기 충돌을 피하기 위해 정리되며 SQLITE 데이터베이스에는 완전한 문서화를위한 메타 데이터 테이블이 포함됩니다.

⏩ 다중 형식 수출 스크립트를 받으십시오

틀 마무리

이 스크립트가 도움이 되었기를 바랍니다. 우리는 가장 시간이 많이 걸리는 데이터 작업 부분을 처리하는 5 가지 실용 스크립트를 다루었습니다.

데이터 품질 검사기는 결 측값, 복제 및 이상치에 대한 데이터 세트를 자동으로 스캔합니다.
Smart File Merger는 모든 폴더의 CSV, Excel 및 JSON 파일을 결합합니다.
데이터 세트 프로파일러는 즉각적인 통계, 상관 관계 및 시각화를 생성합니다
데이터 버전 관리자는 쉬운 롤백으로 데이터 세트를 저장하고 추적합니다.
다중 형식 수출 업체는 전문 Excel, JSON, CSV 및 SQLITE 출력을 동시에 만듭니다.

각 스크립트는 특정 워크 플로 병목 현상을 해결하며 독립적으로 또는 함께 사용할 수 있습니다. 더 나은 기능을 제공하기 위해 필요한만큼의 기능을 추가 할 수 있습니다!

가장 중요한 부분? 이 스크립트를 즉시 사용하기 시작할 수 있습니다. 가장 큰 현재의 고통 지점을 해결하는 것을 선택하고 샘플 데이터 세트에서 시도한 다음 도움이되는지 결정하십시오. 행복한 코딩!

발라 프리 야 c 인도의 개발자이자 기술 작가입니다. 그녀는 수학, 프로그래밍, 데이터 과학 및 컨텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 지식에는 DevOps, 데이터 과학 및 자연어 처리가 포함됩니다. 그녀는 독서, 쓰기, 코딩 및 커피를 즐깁니다! 현재 그녀는 자습서, 방법 안내, 의견 조각 등을 통해 개발자 커뮤니티와 지식을 배우고 공유하는 작업을하고 있습니다. Bala는 또한 매력적인 리소스 개요 및 코딩 자습서를 만듭니다.

출처 참조