AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 8월 22, 2025 0 Comments

5 덜 알려진 파이썬 기능은 모든 데이터 과학자가 알아야 할 기능입니다

편집자에 의한 이미지 | chatgpt

틀 소개

파이썬 Data Science Sphere에서 사용되는 가장 인기있는 언어 중 하나이며, 단순성, 다양성 및 강력한 라이브러리 생태계를 포함하여 Numpy,,, 팬더,,, Scikit-Learn그리고 텐서 플로. 이러한 도구는 무거운 리프팅을 많이 제공하지만 Python 자체에는 클리너, 빠르며 효율적인 코드를 작성하는 데 도움이되는 다양한 기능이 포함되어 있습니다. 이러한 기능 중 다수는 눈에 띄지 않지만 프로젝트를 구성하고 관리하는 방법을 개선 할 수 있습니다.

이 기사에서는 모든 데이터 과학자가 툴킷에 가져야 할 5 가지 덜 알려져 있지만 유익한 파이썬 기능을 탐색합니다.

틀 1 `else` 루프의 조항

알고 계 셨나요? for 그리고 while 파이썬의 루프는 가질 수 있습니다 else 절?

이것은 처음에는 반 직관적으로 들릴 수 있지만 else 블록은 루프가 a없이 완료 될 때만 실행됩니다 break 성명. 이것은 데이터 세트를 검색하고 특정 조건이 충족되지 않은 경우에만 논리를 실행하려는 경우 유용합니다.

for row in dataset:
    if row['target'] == 'desired_value':
        print("Found!")
        break
else:
    print("Not found.")

이 스 니펫에서 else 블록은 루프가 휴식을 취하지 않고 완료 될 때만 실행됩니다. 이렇게하면 루프 외부에 추가 플래그 나 조건을 생성하지 않아도됩니다.

틀 2 `dataclasses` 기준 치수

그만큼 데이터 클래스 Python 3.7에 도입 된 모듈은 특별한 방법을 자동으로 생성하는 데코레이터 및 헬퍼 기능을 제공합니다. __init__(),,, __repr__()그리고 __eq__() 수업을 위해. 반복적 인 보일러 플레이트 코드를 작성하지 않고 매개 변수, 결과 또는 구성 설정을 저장하기 위해 가벼운 클래스가 필요한 경우 데이터 과학에 유용합니다.

from dataclasses import dataclass

@dataclass
class ExperimentConfig:
    learning_rate: float
    batch_size: int
    epochs: int

와 함께 @dataclass깨끗한 생성자, 읽을 수있는 문자열 표현 및 비교 기능을 얻을 수 있습니다.

틀 3. 해마 연산자 (`:=`))

그만큼 해마 연산자 (:=), Python 3.8에 도입되면 표현식의 일부로 변수에 값을 할당 할 수 있습니다. 이것은 여러 장소에서 계산을 반복하지 않고 값을 계산하고 테스트하려는 경우 유용합니다.

data = [1, 2, 3, 4, 5]

if (avg := sum(data) / len(data)) > 3:
    print(f"Average is {avg}")

여기, avg 동시에 할당 및 확인됩니다. 이렇게하면 다른 줄이 필요하지 않으며 코드를 쉽게 읽을 수 있습니다.

틀 4. `enumerate()` 인덱스 루프 용

반복하는 동안 인덱스와 값이 모두 필요할 때 enumerate() 그것을하는 가장 피스닉 방법입니다. 반복 가능한 (목록, 튜플 또는 문자열과 같은)가 필요하고 루프 할 때 (색인, 값)의 쌍을 반환합니다.

for i, row in enumerate(data):
    print(f"Row {i}: {row}")

이렇게하면 가독성이 향상되고 오류 가능성을 줄이며 의도를 더 명확하게 만듭니다. 데이터 과학에 유용하거나 데이터 행을 반복 할 때 또는 중요한 위치에 대한 결과를 반복 할 때 유용합니다.

틀 5 `collections` 기준 치수

파이썬 collections 모듈은 목록이나 사전 만 사용하는 것보다 더 효율적이고 표현력이 뛰어날 수있는 특수 컨테이너 데이터 유형을 제공합니다. 가장 인기있는 것은입니다 Counter최소한의 코드로 반복 가능한 요소를 계산할 수 있습니다.

from collections import Counter

word_counts = Counter(words)
most_common = word_counts.most_common(5)

주문 된 사전이 필요하십니까? 사용 OrderedDict. 기본값이있는 사전이 필요하십니까? 노력하다 defaultdict. 이 도구는 장황한 수동 논리의 필요성을 제거하고 대규모 데이터 처리의 성능을 향상시킬 수 있습니다.

틀 결론

the와 같은 도구 else 루프에 대한 조항, dataclasses그리고 Walrus 연산자는 불필요한 보일러 플레이트를 제거하고 논리를보다 간결하게 만들 수 있습니다. 기능과 같은 기능 enumerate() 그리고 모듈이 좋아요 collections 우아함과 효율성으로 데이터를 반복, 계산 및 구성하도록 도와줍니다. 이 덜 알려진 보석을 워크 플로에 통합함으로써 복잡성을 줄이고 일반적인 함정을 피하며 코드를 방해하는 대신 실제 데이터 문제를 해결하는 데 더 집중할 수 있습니다.

Jayita Gulati 기계 학습 애호가이자 기계 학습 모델 구축에 대한 열정으로 인해 기계 학습 애호가이자 기술 작가입니다. 그녀는 리버풀 대학교에서 컴퓨터 과학 석사 학위를 취득했습니다.

출처 참조