데이터 워크플로우 속도를 높이기 위한 10가지 Polars One-Liner

데이터 워크플로우 속도를 높이기 위한 10가지 Polars One-Liner

데이터 워크플로우 속도를 높이기 위한 10가지 Polars One-Liner데이터 워크플로우 속도를 높이기 위한 10가지 Polars One-Liner
편집자 이미지

# 소개

팬더 의심할 여지없이 강력하고 다재다능한 라이브러리입니다. 데이터 워크플로 관리 및 분석데이터 과학의 더 큰 그림에서 기본적인 것입니다. 그러나 데이터 세트 크기가 매우 커지면 주로 단일 스레드에서 작동하고 Python의 인터프리터에 크게 의존하여 처리 시간이 길어질 수 있으므로 가장 효율적인 옵션이 아닐 수 있습니다.

이 기사에서는 Pandas와 유사한 작업 속도를 높이는 최신 라이브러리로 초점을 이동합니다. 극선. 특히 여러분과 공유하겠습니다. 통찰력 있는 Polars의 한 줄짜리 10가지 매일 간소화하고 속도를 높이기 위해 데이터 조작 및 처리 작업.

시작하기 전에 잊지 마세요. import polars as pl 첫 번째!

# 1. CSV 파일 로딩

CSV 파일에서 데이터 세트를 읽는 Polars의 방법은 다중 스레드(그리고 내부적으로 Rust로 작성됨)라는 점을 제외하면 Pandas와 매우 유사해 보이며 훨씬 더 효율적인 방식으로 데이터를 로드할 수 있습니다. 이 예에서는 CSV 파일을 Polars DataFrame에 로드하는 방법을 보여줍니다.

df = pl.read_csv("dataset.csv")

중간 크기의 데이터세트(매우 큰 데이터세트뿐만 아니라)의 경우에도 Polars를 사용하여 파일을 읽는 데 걸리는 시간 차이는 Pandas를 사용하는 것보다 약 5배 더 빠를 수 있습니다.

# 2. 더 확장 가능한 워크플로우를 위한 지연 로딩

한 번에 열심히 읽는 대신 소위 “지연 데이터 프레임”을 생성하는 것은 데이터 워크플로 전반에 걸쳐 후속 작업을 연결할 수 있는 접근 방식입니다. collect() 메소드는 결국 호출됩니다. 이는 대규모 데이터 파이프라인에 매우 편리한 전략입니다! 다음은 다음을 사용하여 지연 데이터프레임 로딩을 적용하는 방법입니다. scan_csv() 방법:

df_lazy = pl.scan_csv("dataset.csv")

# 3. 관련 열 선택 및 이름 바꾸기

후속 처리에서 작업을 더 쉽고 명확하게 하려면 데이터 과학 또는 분석 프로젝트와 관련된 데이터세트의 열만 처리하는 것이 좋습니다. Polars 데이터프레임을 사용하여 효율적으로 수행하는 방법은 다음과 같습니다. 다음과 같은 고객 데이터세트를 사용하고 있다고 가정해 보겠습니다. 이거. 그런 다음 다음 한 줄짜리 항목을 사용하여 다음과 같이 원하는 관련 열을 선택할 수 있습니다.

df = df.select([pl.col("Customer Id"), pl.col("First Name")])

# 4. 행의 하위 집합 필터링

물론 특정 행(예: 고객)을 Polars 방식으로 필터링할 수도 있습니다. 이 단일 라이너는 특정 도시에 거주하는 고객을 필터링하는 데 사용됩니다.

df_filtered = df.filter(pl.col("City") == "Hatfieldshire")

다음과 같은 방법을 사용하고 싶을 수도 있습니다. display() 또는 head() 이 “쿼리”의 결과, 즉 지정된 기준을 충족하는 행을 확인합니다.

# 5. 카테고리별 그룹화 및 집계 계산

그룹화 및 집계와 같은 작업을 통해 Polars의 효율성 가치는 더 큰 데이터 세트에서 실제로 나타나기 시작합니다. 이 단문을 예로 들어 보겠습니다. 여기서 핵심은 결합입니다. group_by 범주형 열에서 agg() 아래와 같이 각 그룹의 모든 행에 대해 집계를 수행합니다(예: 숫자 열의 평균 또는 단순히 각 그룹의 행 수).

df_city = df.group_by("City").agg([pl.len().alias("num_customers")])

조심하세요! 팬더에서는 groupby() 밑줄 기호가 없지만 Polars에서는 밑줄 기호가 있습니다.

# 6. 파생 열 생성(간단한 기능 엔지니어링)

Polars의 벡터화된 계산 기능 덕분에 기존 열에 대한 산술 연산을 통해 새 열을 생성하는 것이 훨씬 더 빨라졌습니다. 이 한 줄짜리 내용은 이를 보여줍니다(현재 인기 있는 캘리포니아 주택 다음 예시를 위한 데이터 세트!):

df = df.with_columns((pl.col("total_rooms") / pl.col("households")).alias("rooms_per_household"))

# 7. 조건부 논리 적용

소득 수준이나 유사한 속성과 같은 연속 속성을 벡터화되고 오버헤드 없는 방식으로 분류하고 레이블이 지정된 세그먼트로 전환할 수 있습니다. 이 예에서는 income_category 캘리포니아의 지역구당 중간 소득을 기준으로 한 열:

df = df.with_columns(pl.when(pl.col("median_income") > 5).then(pl.lit("High")).otherwise(pl.lit("Low")).alias("income_category"))

# 8. 지연 파이프라인 실행

이 한 줄짜리는 조금 더 크지만 이전 예제에서 본 몇 가지 아이디어를 결합하여 다음과 같이 실행되는 지연 파이프라인을 만듭니다. collect 방법. 기억하세요: 이 게으른 접근 방식이 작동하려면 한 줄짜리 2번을 사용하여 데이터세트 파일을 “게으른 방식”으로 읽어야 합니다.

result = (pl.scan_csv("
        .filter(pl.col("median_house_value") > 200000)
        .with_columns((pl.col("total_rooms") / pl.col("households")).alias("rooms_per_household"))
        .group_by("ocean_proximity").agg(pl.mean("rooms_per_household").alias("avg_rooms_per_household"))
        .sort("avg_rooms_per_household", descending=True)
        .collect())

# 9. 데이터세트 조인

다음과 같은 추가 데이터세트가 있다고 가정해 보겠습니다. region_stats.csv 캘리포니아 지역에 대해 수집된 통계 정보가 포함되어 있습니다. 그런 다음 이와 같은 한 줄짜리 코드를 사용하여 다음과 같이 특정 범주형 열에 조인 작업을 적용할 수 있습니다.

df_joined = df.join(pl.read_csv("region_stats.csv"), on="ocean_proximity", how="left")

결과적으로 더 큰 데이터 세트에서도 성능을 유지하는 Polars의 멀티스레드 조인을 통해 주택 데이터와 지역 수준 메타데이터를 효율적으로 결합할 수 있습니다.

# 10. 롤링 계산 수행

변동이 심한 데이터 변수에서 롤링 집계는 예를 들어 위도와 경도에 따른 평균 주택 가치를 평활화하는 데 유용합니다. 이 한 줄짜리 작업은 빠른 벡터화 작업을 적용하는 방법을 보여줍니다. 시간적 또는 지리적 시퀀스에 적합합니다.

df = df.sort("longitude").with_columns(pl.col("median_house_value").rolling_mean(window_size=7).alias("rolling_value_avg"))

# 마무리

이 기사에서는 대규모 데이터 세트를 처리하기 위해 Pandas의 빠른 대안으로 Polars를 효율적으로 사용하기 위한 10가지 편리한 단일 라이너를 나열했습니다. 이러한 단일 라이너는 더 짧은 시간에 대량의 데이터를 처리하기 위한 빠르고 최적화된 전략을 캡슐화합니다. 다음에 프로젝트에서 Polars를 사용하여 작업할 때 이 직원을 고용하면 의심할 여지 없이 다양한 개선 사항을 보게 될 것입니다.

이반 팔로마레스 카라스코사 AI, 기계 학습, 딥 러닝 및 LLM 분야의 리더, 작가, 연설자 및 고문입니다. 그는 현실 세계에서 AI를 활용할 수 있도록 다른 사람들을 훈련하고 안내합니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다