7 파이썬 라이브러리 모든 분석 엔지니어는 알아야합니다

7 파이썬 라이브러리 모든 분석 엔지니어는 알아야합니다

Python Libraries 모든 분석 엔지니어가 알아야합니다Python Libraries 모든 분석 엔지니어가 알아야합니다
저자의 이미지 | 표의 문자

소개

데이터 파이프 라인을 구축하거나 신뢰할 수있는 변환을 만들거나 이해 관계자가 정확한 통찰력을 얻도록하는 경우 원시 데이터와 유용한 통찰력 사이의 격차를 해소 해야하는 도전을 알고 있습니다.

분석 엔지니어는 데이터 엔지니어링 및 데이터 분석의 교차점에 앉아 있습니다. 데이터 엔지니어는 인프라에 중점을두고 데이터 과학자는 모델링에 중점을두고 있지만 분석 엔지니어는 “중간 계층”에 집중하여 원시 데이터를 다른 데이터 전문가가 사용할 수있는 깨끗하고 신뢰할 수있는 데이터 세트로 변환합니다.

일상적인 작업에는 데이터 변환 파이프 라인 구축, 데이터 모델 작성, 데이터 품질 검사 구현 및 조직 전체에서 비즈니스 메트릭이 일관되게 계산되도록하는 것이 포함됩니다. 이 기사에서는 분석 엔지니어가 매우 유용하다고 생각하는 Python 라이브러리를 살펴 보겠습니다. 시작합시다.

1. 폴라 – 빠른 데이터 조작

팬더에서 대형 데이터 세트로 작업 할 때는 느린 작업을 최적화하고 종종 문제에 직면 할 수 있습니다. 매일보고하거나 복잡한 집계를 구축하기 위해 수백만 행을 처리 할 때 성능 병목 현상은 빠른 분석을 오랜 시간의 작업으로 바꿀 수 있습니다.

극선 속도를 위해 구축 된 데이터 프레임 라이브러리입니다. 후드 아래의 녹을 사용하고 게으른 평가를 구현하므로 실행하기 전에 전체 쿼리를 최적화합니다. 이로 인해 팬더에 비해 처리 시간이 급격히 빠르고 메모리 사용량이 줄어 듭니다.

// 주요 기능

  • 자동으로 최적화되는 복잡한 쿼리를 빌드하십시오
  • 스트리밍을 통해 RAM보다 큰 데이터 세트를 처리합니다
  • 비슷한 구문으로 팬더에서 쉽게 마이그레이션합니다
  • 추가 구성없이 모든 CPU 코어를 사용하십시오
  • 다른 화살표 기반 도구와 완벽하게 작업하십시오

학습 리소스: 실제 예제와 함께 실습 자습서를 제공하는 Polars 사용자 안내서로 시작하십시오. 또 다른 실용적인 소개를 보려면 YouTube에서 Talk Python을 통해 데이터 과학을 평준화하기 위해 10 개의 Polars 도구 및 기술을 확인하십시오.

2. 큰 기대 – 데이터 품질 보증

나쁜 데이터는 나쁜 결정으로 이어집니다. 분석 엔지니어는 데이터 품질을 보장하는 데 어려움을 겪고 있습니다. 그렇지 않은 곳에 널 값을 잡고 예상치 못한 데이터 배포를 식별하며 비즈니스 규칙이 데이터 세트에서 지속적으로 따르는 것으로 확인합니다.

큰 기대 반응성 소방에서 사전 모니터링으로 데이터 품질을 변환합니다. 데이터에 대한 “예상”을 정의 할 수 있으며 ( “이 열은”이 열이 null이되어서는 안됩니다 “또는”값은 0과 100 사이 여야합니다 “) 파이프 라인에서 이러한 규칙을 자동으로 검증 할 수 있습니다.

// 주요 기능

  • 데이터 검증에 대한 사람이 읽을 수있는 기대치를 작성하십시오
  • 기존 데이터 세트에서 기대치를 자동으로 생성합니다
  • 공기 흐름 및 DBT와 같은 도구와 쉽게 통합됩니다
  • 특정 도메인에 대한 사용자 정의 검증 규칙을 구축하십시오

학습 리소스: 학습 | Great Expectations Page에는 워크 플로에 큰 기대치를 통합하는 데 도움이되는 자료가 있습니다. 실질적인 깊은 다이빙의 경우 YouTube에서 데이터 테스트 재생 목록에 대한 GX (Great Expectations)를 따를 수도 있습니다.

3. DBT- 코어-SQL-First 데이터 변환

복잡한 SQL 변환 관리는 데이터웨어 하우스가 성장함에 따라 악몽이됩니다. SQL 워크 플로에 대한 버전 제어, 테스트, 문서 및 종속성 관리는 종종 팀원이 변경 될 때 깨지는 깨지기 쉬운 스크립트 및 부족 지식에 의존합니다.

DBT (데이터 빌드 도구) 버전 제어, 테스트, 문서화 및 종속성 관리를 제공하는 동안 Pure SQL을 사용하여 데이터 변환 파이프 라인을 구축 할 수 있습니다. SQL 워크 플로를 유지 관리 가능하고 확장시킬 수있는 누락 된 조각으로 생각하십시오.

// 주요 기능

  • Jinja 템플릿으로 SQL로 변환을 작성하십시오
  • 올바른 실행 순서를 자동으로 구축하십시오
  • 변환과 함께 데이터 검증 테스트를 추가하십시오
  • 문서 및 데이터 계보를 생성합니다
  • 프로젝트에서 재사용 가능한 매크로 및 모델을 만듭니다

학습 리소스: 실습 연습이 포함 된 Courses.getDBT.com에서 DBT 기초 과정부터 시작하십시오. 초보자를위한 DBT (Data Build Tool) 충돌 과정 : Zero to Hero도 훌륭한 학습 자원입니다.

4. Prefect – 현대 워크 플로 오케스트레이션

분석 파이프 라인은 거의 분리되지 않습니다. 실패를 우아하게 처리하고 실행을 모니터링하며 신뢰할 수있는 스케줄링을 보장하는 동안 데이터 추출, 변환,로드 및 검증 단계를 조정해야합니다. 전통적인 Cron 작업과 스크립트는 빠르게 관리 할 수 ​​없습니다.

지사 파이썬 네이티브 접근법으로 워크 플로 오케스트레이션을 현대화합니다. 새로운 DSL을 학습 해야하는 구형 도구와 달리 Prefect를 사용하면 순수한 파이썬에서 워크 플로우를 작성하면서 재 시도 로직, 동적 스케줄링 및 포괄적 인 모니터링과 같은 엔터프라이즈 등급 오케스트레이션 기능을 제공 할 수 있습니다.

// 주요 기능

  • 친숙한 파이썬 구문으로 오케스트레이션 로직을 작성하십시오
  • 런타임 조건에 따라 적응하는 워크 플로를 만듭니다
  • 재심, 시간 초과 및 고장을 자동으로 처리하십시오
  • 동일한 코드를 로컬 및 프로덕션에서 실행하십시오
  • 자세한 로그 및 메트릭으로 실행을 모니터링합니다

학습 리소스: Prefect의 시작을 볼 수 있습니다 | YouTube에서 작업 오케스트레이션 및 데이터 워크 플로우 스타트를 시작하십시오. Prefect Team의 PAL (Prefect Accelerated Learning) 시리즈는 또 다른 유용한 자원입니다.

5. 간소화 – 분석 대시 보드

이해 관계자를위한 대화식 대시 보드를 만드는 것은 종종 복잡한 웹 프레임 워크를 학습하거나 값 비싼 BI 도구에 의존하는 것을 의미합니다. 분석 엔지니어는 풀 스택 개발자가되지 않고 Python 분석을 공유 가능한 대화식 응용 프로그램으로 빠르게 전환 할 수있는 방법이 필요합니다.

간소 데이터 응용 프로그램을 구축하여 복잡성을 제거합니다. 몇 줄의 Python 코드만으로 이해 관계자가 기술 지식없이 사용할 수있는 대화식 대시 보드, 데이터 탐색 도구 및 분석 응용 프로그램을 만들 수 있습니다.

// 주요 기능

  • 웹 프레임 워크가없는 Python 만 사용하여 앱을 구축하십시오
  • 데이터가 변경되면 UI를 자동으로 업데이트하십시오
  • 대화식 차트, 필터 및 입력 컨트롤을 추가하십시오
  • 클라우드를 한 번 클릭하여 응용 프로그램을 배포하십시오
  • 최적화 된 성능을위한 캐시 데이터

학습 리소스: 매일 실습 운동을 제공하는 30 일의 간소로 시작하십시오. Arjan Codes의 Data Scientists를위한 Python Tutorials를 확인할 수도 있습니다.

6. Pyjanitor – 데이터 청소가 간단하게 만들어졌습니다

실제 데이터는 지저분합니다. 분석 엔지니어는 열 이름 표준화, 복제 처리, 텍스트 데이터 청소 및 일관되지 않은 형식을 다루는 반복적 인 청소 작업에 상당한 시간을 소비합니다. 이러한 작업은 시간이 많이 걸리지 만 신뢰할 수있는 분석에는 필요합니다.

Pyjanitor 일반적인 실제 시나리오를 위해 설계된 데이터 청소 기능 모음으로 팬더를 확장합니다. 깨끗하고 체인 가능한 API를 제공하여 기존의 팬더 접근 방식보다 데이터 청소 작업을보다 읽기 쉽고 유지 관리 할 수 ​​있습니다.

// 주요 기능

  • 읽기 쉬운 파이프 라인에 대한 체인 데이터 청소 작업
  • 일반적인 청소 작업을위한 사전 구축 된 기능에 액세스하십시오
  • 텍스트 데이터를 효율적으로 깨끗하게하고 표준화하십시오
  • 문제가있는 열 이름을 자동으로 수정하십시오
  • Excel 가져 오기 문제를 완벽하게 처리하십시오

학습 리소스: Pyjanitor 문서의 기능 페이지는 좋은 출발점입니다. Pydata Sydney에서 Pyjanitor 대화를 통해 팬더를 돕는 것을 확인할 수도 있습니다.

7. SQLALCHEMY – 데이터베이스 커넥터

분석 엔지니어는 자주 여러 데이터베이스에서 작업하며 복잡한 쿼리를 실행하고 연결을 효율적으로 관리하며 다른 SQL 방언을 처리해야합니다. 원시 데이터베이스 연결 코드 작성은 특히 연결 풀링, 트랜잭션 관리 및 데이터베이스 별 특이 적 퀴크를 다룰 때 시간이 많이 걸리고 오류가 발생하기 쉽습니다.

sqlalchemy Python에서 데이터베이스 작업을위한 강력한 툴킷을 제공합니다. 연결 관리를 처리하고 데이터베이스 추상화를 제공하며 높은 수준의 ORM 기능과 저수준 SQL 표현식 도구를 제공합니다. 이를 통해 연결을 수동으로 관리하는 복잡성없이 신뢰할 수있는 데이터베이스 상호 작용이 필요한 분석 엔지니어에게 적합합니다.

// 주요 기능

  • 일관된 구문으로 여러 데이터베이스 유형에 연결하십시오
  • 연결 풀 및 트랜잭션을 자동으로 관리합니다
  • 플랫폼에서 작동하는 데이터베이스 공수 쿼리를 작성하십시오
  • 파라미터 바인딩으로 필요할 때 원시 SQL을 실행하십시오
  • 데이터베이스 메타 데이터 및 내성을 원활하게 처리하십시오

학습 리소스: 코어 및 ORM 접근 방식을 모두 다루는 SQLALCHEMY 튜토리얼로 시작하십시오. 또한 YouTube의 Arjan 코드에 의해 Python의 최고의 SQL 데이터베이스 라이브러리 SQLALCHEMY : 최고의 SQL 데이터베이스 라이브러리를보십시오.

마무리

이 파이썬 라이브러리는 최신 분석 엔지니어링에 유용합니다. 각각은 분석 워크 플로에서 특정 통증 지점을 다룹니다.

가장 좋은 도구는 실제로 사용하는 도구입니다. 이 목록에서 하나의 라이브러리를 선택하고 실제 프로젝트에서 일주일을 구현하면 올바른 파이썬 라이브러리가 분석 엔지니어링 워크 플로우를 단순화 할 수있는 방법을 빠르게 알 수 있습니다.

발라 프리 야 c 인도의 개발자이자 기술 작가입니다. 그녀는 수학, 프로그래밍, 데이터 과학 및 컨텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 지식에는 DevOps, 데이터 과학 및 자연어 처리가 포함됩니다. 그녀는 독서, 쓰기, 코딩 및 커피를 즐깁니다! 현재 그녀는 자습서, 방법 안내, 의견 조각 등을 통해 개발자 커뮤니티와 지식을 배우고 공유하는 작업을하고 있습니다. Bala는 또한 매력적인 리소스 개요 및 코딩 자습서를 만듭니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다