5 덜 알려진 파이썬 기능은 모든 데이터 과학자가 알아야 할 기능입니다

5 덜 알려진 파이썬 기능은 모든 데이터 과학자가 알아야 할 기능입니다

5 덜 알려진 파이썬 기능은 모든 데이터 과학자가 알아야 할 기능입니다5 덜 알려진 파이썬 기능은 모든 데이터 과학자가 알아야 할 기능입니다
편집자에 의한 이미지 | chatgpt

소개

파이썬 Data Science Sphere에서 사용되는 가장 인기있는 언어 중 하나이며, 단순성, 다양성 및 강력한 라이브러리 생태계를 포함하여 Numpy,,, 팬더,,, Scikit-Learn그리고 텐서 플로. 이러한 도구는 무거운 리프팅을 많이 제공하지만 Python 자체에는 클리너, 빠르며 효율적인 코드를 작성하는 데 도움이되는 다양한 기능이 포함되어 있습니다. 이러한 기능 중 다수는 눈에 띄지 않지만 프로젝트를 구성하고 관리하는 방법을 개선 할 수 있습니다.

이 기사에서는 모든 데이터 과학자가 툴킷에 가져야 할 5 가지 덜 알려져 있지만 유익한 파이썬 기능을 탐색합니다.

1 else 루프의 조항

알고 계 셨나요? for 그리고 while 파이썬의 루프는 가질 수 있습니다 else 절?

이것은 처음에는 반 직관적으로 들릴 수 있지만 else 블록은 루프가 a없이 완료 될 때만 실행됩니다 break 성명. 이것은 데이터 세트를 검색하고 특정 조건이 충족되지 않은 경우에만 논리를 실행하려는 경우 유용합니다.

for row in dataset:
    if row['target'] == 'desired_value':
        print("Found!")
        break
else:
    print("Not found.")

이 스 니펫에서 else 블록은 루프가 휴식을 취하지 않고 완료 될 때만 실행됩니다. 이렇게하면 루프 외부에 추가 플래그 나 조건을 생성하지 않아도됩니다.

2 dataclasses 기준 치수

그만큼 데이터 클래스 Python 3.7에 도입 된 모듈은 특별한 방법을 자동으로 생성하는 데코레이터 및 헬퍼 기능을 제공합니다. __init__(),,, __repr__()그리고 __eq__() 수업을 위해. 반복적 인 보일러 플레이트 코드를 작성하지 않고 매개 변수, 결과 또는 구성 설정을 저장하기 위해 가벼운 클래스가 필요한 경우 데이터 과학에 유용합니다.

from dataclasses import dataclass

@dataclass
class ExperimentConfig:
    learning_rate: float
    batch_size: int
    epochs: int

와 함께 @dataclass깨끗한 생성자, 읽을 수있는 문자열 표현 및 비교 기능을 얻을 수 있습니다.

3. 해마 연산자 (:=))

그만큼 해마 연산자 (:=), Python 3.8에 도입되면 표현식의 일부로 변수에 값을 할당 할 수 있습니다. 이것은 여러 장소에서 계산을 반복하지 않고 값을 계산하고 테스트하려는 경우 유용합니다.

data = [1, 2, 3, 4, 5]

if (avg := sum(data) / len(data)) > 3:
    print(f"Average is {avg}")

여기, avg 동시에 할당 및 확인됩니다. 이렇게하면 다른 줄이 필요하지 않으며 코드를 쉽게 읽을 수 있습니다.

4. enumerate() 인덱스 루프 용

반복하는 동안 인덱스와 값이 모두 필요할 때 enumerate() 그것을하는 가장 피스닉 방법입니다. 반복 가능한 (목록, 튜플 또는 문자열과 같은)가 필요하고 루프 할 때 (색인, 값)의 쌍을 반환합니다.

for i, row in enumerate(data):
    print(f"Row {i}: {row}")

이렇게하면 가독성이 향상되고 오류 가능성을 줄이며 의도를 더 명확하게 만듭니다. 데이터 과학에 유용하거나 데이터 행을 반복 할 때 또는 중요한 위치에 대한 결과를 반복 할 때 유용합니다.

5 collections 기준 치수

파이썬 collections 모듈은 목록이나 사전 만 사용하는 것보다 더 효율적이고 표현력이 뛰어날 수있는 특수 컨테이너 데이터 유형을 제공합니다. 가장 인기있는 것은입니다 Counter최소한의 코드로 반복 가능한 요소를 계산할 수 있습니다.

from collections import Counter

word_counts = Counter(words)
most_common = word_counts.most_common(5)

주문 된 사전이 필요하십니까? 사용 OrderedDict. 기본값이있는 사전이 필요하십니까? 노력하다 defaultdict. 이 도구는 장황한 수동 논리의 필요성을 제거하고 대규모 데이터 처리의 성능을 향상시킬 수 있습니다.

결론

the와 같은 도구 else 루프에 대한 조항, dataclasses그리고 Walrus 연산자는 불필요한 보일러 플레이트를 제거하고 논리를보다 간결하게 만들 수 있습니다. 기능과 같은 기능 enumerate() 그리고 모듈이 좋아요 collections 우아함과 효율성으로 데이터를 반복, 계산 및 구성하도록 도와줍니다. 이 덜 알려진 보석을 워크 플로에 통합함으로써 복잡성을 줄이고 일반적인 함정을 피하며 코드를 방해하는 대신 실제 데이터 문제를 해결하는 데 더 집중할 수 있습니다.

Jayita Gulati 기계 학습 애호가이자 기계 학습 모델 구축에 대한 열정으로 인해 기계 학습 애호가이자 기술 작가입니다. 그녀는 리버풀 대학교에서 컴퓨터 과학 석사 학위를 취득했습니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다