Numpy와 Pandas 소개

Numpy와 Pandas 소개

Python 프로그래밍에서 Numpy와 Pandas는 수치 컴퓨팅 및 데이터 조작을위한 가장 강력한 라이브러리 중 두 가지로 두드러집니다.

Numpy : 수치 컴퓨팅의 기초

Numpy (수치 파이썬)는 다차원 배열 및 광범위한 수학적 기능을 지원하므로 과학 컴퓨팅에 필수적입니다.

  1. Numpy는 파이썬에서 수치 컴퓨팅을위한 가장 기본적인 패키지입니다.
  2. Numpy가 수치 계산에 중요한 이유 중 하나는 많은 데이터 배열로 효율성을 위해 설계 되었기 때문입니다. 이 이유는 다음과 같습니다.
    • 다른 내장 파이썬 객체와 무관하게 내부적으로 데이터를 내부적으로 저장합니다.
    • “for”루프없이 전체 배열에서 복잡한 계산을 수행합니다.
  3. 그만큼 ndarray 빠른 배열 지향적 산술 작업 및 유연성을 제공하는 효율적인 다차원 배열입니다. 방송 기능.
  4. Numpy ndarray 객체는 파이썬의 대형 데이터 세트를위한 빠르고 유연한 컨테이너입니다.
  5. 배열을 사용하면 동일한 데이터 유형의 여러 항목을 저장할 수 있습니다. 배열 객체 주변의 시설은 Numpy가 수학 및 데이터 조작을 수행하기에 편리하게 만듭니다.

Numpy에서의 운영

배열 생성 :

배열 생성

배열 재구성 :

배열 재구성

슬라이스 및 인덱싱 :

슬라이스 및 인덱싱

산술 작업 :

산술 작업

선형 대수 :

선형 대수

통계 작업 :

통계 작업

Numpy Array와 Python 목록의 차이

배열과 목록의 주요 차이점은 배열이 벡터화 된 작업을 처리하도록 설계되었지만 파이썬 목록은 그렇지 않다는 것입니다. 즉, 함수를 적용하면 전체 배열 개체가 아닌 배열의 모든 항목에서 수행됩니다.

팬더

Pandas는 인공 지능 및 기계 학습 영역에 중요한 수치 컴퓨팅 및 데이터 조작을위한 가장 강력한 라이브러리 중 하나로 두드러집니다.

Numpy와 마찬가지로 판다는 가장 인기있는 파이썬 라이브러리 중 하나입니다. Pure C. Pandas로 작성된 저수준 Numpy에 비해 높은 수준의 추상화로 고성능, 사용하기 쉬운 데이터 구조 및 데이터 분석 도구를 제공합니다. 팬더는 두 가지 주요 구조를 사용합니다. 데이터 프레임 그리고 시리즈.

팬더 시리즈의 지수

Pandas 시리즈는 목록과 유사하지만 시리즈가 각 요소와 레이블을 연결한다는 점에서 다릅니다. 이것은 사전처럼 보입니다. 사용자가 인덱스를 명시 적으로 제공하지 않으면 Pandas는 0에서 ~ 범위의 범위 인덱스를 만듭니다. N-1. 각 시리즈 객체에는 데이터 유형도 있습니다.

Pandas 시리즈에는 시리즈의 모든 값과 인덱스별로 개별 요소를 추출 할 수있는 방법이 있습니다.

인덱스는 수동으로 제공 될 수 있습니다.

지수로 시리즈의 여러 요소를 검색하거나 그룹 할당을 할 수 있습니다.

팬더 데이터 프레임

데이터 프레임은 행과 열이있는 테이블입니다. 데이터 프레임의 각 열은 시리즈 객체입니다. 행은 시리즈 내부의 요소로 구성됩니다. PANDAS 데이터 프레임은 데이터 조작 및 분석을위한 광범위한 작업을 제공합니다. 다음은 일부 일반적인 작업의 고장입니다.

기본 작업

데이터 프레임 생성

  • 사전에서 : pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
  • CSV 파일에서 : pd.read_csv('data.csv')
  • Excel 파일에서 : pd.read_excel('data.xlsx')

데이터 액세스

  • 열 선택 : df['col1']
  • 행 선택 : df.loc[0] (by index label), df.iloc[0] (인덱스 위치)
  • 슬라이싱 : df [0:2] (first two rows), df[['coll', 'col2']] (다중 열)

열/행 추가 및 제거

  • 열 추가 : df['new_col'] =
  • 열 제거 : df.drop('coll', axis=1)
  • 행 추가 : df.append({'col1': 7, 'col2': 8}, ignore_index=True)
  • 행 제거 : df.drop(0)

필터링 데이터

  • 부울 조건 사용 : df [df['col1'] > 2]

수학적 작업

  • 산술 작업 : df['col1'] + df['col2'],,, df * 2등.
  • 집계 기능 : df.sum(),,, df.mean(),,, df.max(),,, df.min()등.
  • 사용자 정의 기능 적용 : df.apply(lambda x: x**2)

누락 데이터 처리

  • 결 측값 확인 : df.isnull()
  • 결 측값 삭제 : df.dropna()
  • 결 측값 채우기 : df.fillna(0)

데이터 프레임 병합 및 결합

  • 병합 : pd.merge(df1, df2, on='key_column')
  • 합류: df1.join(df2, on='key_column')

그룹화 및 집계

  • 그룹화 : df.groupby('col1')
  • 집계 : df.groupby('col1').mean()

시계열 작업

  • 리 샘플링 : df.resample('D').sum() (일일 주파수로 다운 샘플)
  • 시간 이동 : df.shift(1) (한 기간으로 데이터를 전환)

데이터 시각화

음모 : df.plot() (라인 플롯), df.hist() (히스토그램) 등

복잡한 팬더 예제

1. 여기에는 지역 및 연도별로 판매 데이터를 색인화했습니다. 이제 지역 당 판매량 변화를 계산합니다.

2. 제품 및 가격이 포함 된 데이터 세트가 있으며 카테고리 당 평균 가격을 계산하며 각각에서 가장 비싼 제품을 찾습니다.

3. 복잡한 “적용”사용 :

결론

Numpy와 Pandas 의이 두 라이브러리는 BFSI (재무 분석), 과학 컴퓨팅, AI 및 ML 및 빅 데이터 처리와 같은 실제 응용 프로그램에 널리 사용됩니다. 이 두 라이브러리는 중요한 주식 시장 동향 분석에서 대규모 ERP 비즈니스 데이터 관리에 이르기까지 데이터 중심 의사 결정에 중요한 역할을합니다.

초보자의 경우 다음 단계는 소규모 프로젝트를 수행하고 데이터 세트를 탐색하며 실제 시나리오에서 기능을 적용하여 Numpy 및 Pandas를 사용하는 것입니다. 금융, 부동산 또는 일반 제조 비즈니스 데이터에 대한 Github의 오픈 소스 데이터를 다운로드 할 수 있습니다. 해당 소스 데이터와 이러한 라이브러리를 사용하면 매력적인 스토리 나 경험적 분석을 만들 수 있습니다. 실습 경험은 개념을 굳히고 고급 데이터 과학 작업을 위해 학습자를 준비하는 데 도움이됩니다.

결론적으로, Numpy와 Pandas는 데이터 조작 및 분석을위한 두 가지 필수 파이썬 라이브러리입니다. 여기서 Numpy는 효율적인 배열 작업을 통해 수치 계산을 강력하게 지원하는 반면, Pandas는 Numpy를 구축하여 구조화 된 데이터를 처리하기위한 시리즈 및 데이터 프레임과 같은 고유하고 직관적 인 데이터 구조를 제공합니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다