바쁜 데이터 분석가를 위한 5가지 유용한 Python 스크립트


작성자별 이미지
# 소개
데이터 분석가로서 귀하의 임무는 원시 숫자에서 비즈니스 결정을 안내하는 결과로 이동하는 것입니다. 하지만 솔직하게 말씀드리자면, 세 번째로 보고서 형식을 지정하고, 여러 부서의 데이터를 상호 참조하거나 동일한 대시보드 업데이트를 준비하는 데 하루 중 얼마나 많은 시간을 소비하시나요? 당신이 대부분의 분석가와 같다면 아마도 너무 많을 것입니다.
실제로 데이터 분석가는 반복적인 서식 지정, 보고서 준비 및 데이터 조정 작업에 업무 시간의 약 50%를 소비합니다. 이는 진정한 분석 작업에 소요되는 시간입니다.
이 문서에서는 데이터 분석가의 가장 큰 문제점을 위해 특별히 설계된 5가지 Python 스크립트를 다룹니다. 시작해 봅시다!
🔗 GitHub의 코드에 대한 링크
# 1. 자동 보고서 포맷터
문제점: 이해관계자는 원시 데이터 덤프가 아닌 전문적으로 보이는 보고서를 원합니다. 열 너비를 조정하고, 조건부 서식을 추가하고, 요약 행을 만들고, 모든 것이 완벽하게 정렬되는지 확인하는 데 매주 한 시간이 소요됩니다. 하나의 새로운 데이터 포인트는 모든 것을 다시 포맷한다는 것을 의미합니다.
스크립트의 기능: 분석된 데이터를 조건부 서식, 요약 통계, 서식이 지정된 헤더 및 자동 조정 열을 사용하여 회의실에 바로 사용할 수 있는 세련된 Excel 보고서로 변환합니다. 모든 보고서에 일관된 스타일을 적용하므로 다시 수동으로 형식을 지정할 필요가 없습니다.
작동 방식: 스크립트는 다음을 사용합니다. openpyxl Excel 파일에 전문적인 스타일 규칙을 적용합니다. 요약 행을 자동으로 계산하고, 중요한 값을 강조하기 위해 색상 눈금을 적용하고, 열 이름에 따라 숫자의 형식을 통화 또는 백분율로 지정하고, 내용에 따라 열 너비를 조정합니다. 스타일 기본 설정을 한 번 정의하면 매번 일관되게 적용됩니다.
⏩ 자동 보고서 포맷터 스크립트 받기
# 2. 소스 간 데이터 조정자
문제점: 판매 데이터는 CRM에 있고, 재고 번호는 창고 시스템에서 가져오고, 재무에는 자체 스프레드시트가 있습니다. 모든 분석에는 일치하지 않는 ID, 다양한 날짜 형식, 고객 이름의 철자 변형을 처리하면서 이러한 소스 전반에 걸쳐 일치하는 기록이 필요합니다.
스크립트의 기능: 이름에 대한 유사 일치, 유연한 날짜 구문 분석 및 여러 ID 형식을 사용하여 다양한 데이터 소스의 레코드를 일치시키고 조정합니다. 검토를 위해 불일치 사항을 표시하고 실제로 분석할 수 있는 통합 데이터 세트를 생성합니다.
작동 방식: 스크립트는 퍼지 문자열 일치 알고리즘을 사용하여 이름이 정확히 일치하지 않는 경우에도 일치할 가능성이 있는 항목을 찾습니다. 다양한 형식의 날짜를 표준화하고, 텍스트 필드(대소문자 처리, 공백 및 특수 문자 처리)를 정규화하고, 일치 신뢰도 점수를 생성합니다. 잘 일치하지 않는 레코드는 나란히 비교하여 수동으로 검토하도록 플래그가 지정됩니다.
⏩ 소스 간 데이터 조정자 스크립트 가져오기
# 3. 지표 대시보드 생성기
문제점: 관리자는 매주 업데이트되는 KPI를 확인하고, 이해관계자는 월별 추세 차트가 필요하며, 경영진은 분기별 비교를 원합니다. 약간 다른 데이터를 사용하여 동일한 시각화를 반복적으로 만들고, 레이블을 수동으로 업데이트하고, 매번 축 범위를 조정합니다.
스크립트의 기능: 주요 지표, 추세, 비교 및 성과 지표를 보여주는 대화형 차트가 포함된 완전한 HTML 대시보드를 생성합니다. 새로운 데이터로 자동 업데이트되고 이메일로 보내거나 내부적으로 게시할 수 있는 파일에 저장됩니다.
작동 방식: 스크립트는 다음을 사용합니다. 줄거리 모든 브라우저에서 작동하는 대화형 시각화를 생성합니다. 기간별 변화를 계산하고, 추세를 식별하고, 이상값을 강조 표시하고, 모든 것을 깔끔하고 전문적인 대시보드로 구성합니다. HTML 파일은 자체 포함되어 있으므로 보기 위해 종속성이 필요하지 않습니다.
⏩ 측정항목 대시보드 생성기 스크립트 가져오기
# 4. 예약된 데이터 리프레셔
문제점: 매일 아침 동일한 소스에서 데이터를 가져와 분석을 업데이트합니다. 데이터베이스에 로그인하고, 쿼리를 실행하고, CSV로 내보내고, Python으로 로드하고, 다른 데이터 소스와 병합하고, 결과를 저장합니다. 매일 똑같은 순서로 아침의 첫 30분을 빼앗습니다.
스크립트의 기능: 일정에 따라 데이터 원본에 연결하고, 새로운 데이터를 가져오고, 표준 변환을 수행하고, 분석할 준비가 된 업데이트된 데이터 세트를 저장합니다. 한 번 설정하면 필요할 때 데이터가 항상 최신 상태로 유지됩니다.
작동 방식: 스크립트는 예약된 실행을 결합합니다(사용 일정) 데이터베이스 연결 사용(사용 SQLAlchemy) 데이터 검색을 자동화합니다. 연결 재시도를 처리하고, 모든 작업을 기록하고, 실패 시 알림을 보내고, 타임스탬프 로그를 유지 관리하므로 데이터가 마지막으로 새로 고쳐진 시기를 정확히 알 수 있습니다.
⏩ 예약된 데이터 리프레셔 스크립트 가져오기
# 5. 스마트 차트 생성기
문제점: 때로는 지역, 제품 또는 기간별 성과를 표시하는 거의 동일한 차트를 여러 개 만들어야 하는 경우가 있습니다. 각 차트에는 회사 브랜드와 일치하도록 일관된 형식, 적절한 레이블 및 특정 스타일이 필요합니다. 각각을 수동으로 생성하려면 몇 시간씩 복사하여 붙여넣고 조정해야 합니다.
스크립트의 기능: 데이터에서 몇 초 만에 수십 개의 형식화된 차트를 생성합니다. 각 카테고리에 대해 별도의 시각화를 생성하고 일관된 스타일을 적용한 후 프레젠테이션이나 보고서에 바로 사용할 수 있는 고품질 이미지로 저장합니다.
작동 방식: 스크립트는 데이터의 범주별 분석을 반복하고 다음을 사용하여 표준화된 시각화를 생성합니다. Matplotlib 그리고 씨본기본 설정에 따라 사용자 정의 스타일(색상, 글꼴, 레이아웃)을 적용하고 출판 준비가 완료된 이미지를 내보냅니다. 수동으로 3개를 만드는 것보다 더 빨리 완전한 차트 데크를 생성할 수 있습니다.
⏩ 스마트 차트 생성기 스크립트 받기
# 결론
이 기사가 도움이 되었기를 바랍니다.
다음 5가지 스크립트는 데이터 분석가가 매일 직면하는 특정 과제를 해결합니다.
- 자동화된 보고서 포맷터는 원시 분석을 즉시 세련된 Excel 보고서로 변환합니다.
- 소스 간 데이터 조정자는 다양한 시스템의 레코드를 지능적으로 일치시키고 병합합니다.
- 지표 대시보드 생성기는 자동으로 업데이트되는 대화형 HTML 대시보드를 생성합니다.
- 예약된 데이터 새로 고침으로 데이터베이스 및 API에서 수동으로 데이터를 가져오는 작업이 제거됩니다.
- 스마트 차트 생성기는 일관되게 형식화된 수백 개의 시각화를 몇 초 만에 생성합니다.
중요한 것은 작게 시작하는 것입니다. 가장 짜증나는 반복 작업을 처리하는 스크립트를 선택하고 실제 데이터로 테스트한 후 필요에 맞게 조정하세요.
스크립트가 처리할 수 있는 작업에 시간을 투자하기에는 시간이 너무 소중합니다. 실제로 중요한 통찰력을 찾는 데 집중하는 동안 Python이 지루한 작업을 수행하도록 하세요. 분석해 보세요!
발라 프리야 C 인도 출신의 개발자이자 기술 작가입니다. 그녀는 수학, 프로그래밍, 데이터 과학, 콘텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 분야에는 DevOps, 데이터 과학, 자연어 처리가 포함됩니다. 그녀는 읽기, 쓰기, 코딩, 커피를 즐깁니다! 현재 그녀는 튜토리얼, 방법 가이드, 의견 등을 작성하여 개발자 커뮤니티에서 자신의 지식을 학습하고 공유하는 데 힘쓰고 있습니다. Bala는 또한 매력적인 리소스 개요와 코딩 튜토리얼을 만듭니다.



Post Comment