2025 년 데이터 분석에 대한 AI를 배우는 방법

편집자에 의한 이미지 | chatgpt

데이터 분석이 변경되었습니다. 더 이상 Python, SQL 및 Excel과 같은 도구를 데이터 분석가로 아는 것만으로는 충분하지 않습니다.

기술 회사의 데이터 전문가 인 저는 AI를 모든 직원의 워크 플로에 직접 통합하고 있습니다. 이제 전체 데이터베이스에 액세스하고 분석 할 수있는 AI 도구가 있으며 몇 분 안에 데이터 분석 프로젝트, 머신 러닝 모델 및 웹 애플리케이션을 구축 할 수 있습니다.

당신이 야심 찬 데이터 전문가이고 이러한 AI 도구를 사용하지 않는다면, 당신은 잃어 버리고 있습니다. 그리고 곧, 당신은 다른 데이터 분석가들에 의해 능가 할 것입니다. AI를 사용하여 워크 플로를 최적화하는 사람들.

이 기사에서는 경쟁 업체보다 앞서 나가고 데이터 분석 워크 플로우를 10 배로 도울 수있는 AI 도구를 안내해 드리겠습니다.

이 도구를 사용하면 다음을 수행 할 수 있습니다.

Data Analyst로 고용하기 위해 Creative 포트폴리오 프로젝트 구축 및 배포
일반 영어를 사용하여 엔드 투 엔드 데이터 분석 응용 프로그램을 만듭니다
데이터 워크 플로우 속도를 높이고보다 효율적인 데이터 분석가가 되십시오.

또한이 기사는 AI 도구를 사용하여 데이터 분석 응용 프로그램을 구축하는 방법에 대한 단계별 안내서가 될 것입니다. 우리는 특히 커서와 팬더 AI의 두 가지 AI 도구에 중점을 둘 것입니다.

이 기사의 비디오 버전은 다음을보십시오.

https://www.youtube.com/watch?v=ukidrskagai

AI 도구 1 : 커서

Cursor는 전체 코드베이스에 액세스 할 수있는 AI 코드 편집기입니다. Cursor의 채팅 인터페이스에 프롬프트를 입력하면 디렉토리의 모든 파일에 액세스하고 코드를 편집합니다.

초보자이고 한 줄의 코드를 쓸 수없는 경우 빈 코드 폴더로 시작하여 커서에게 무언가를 만들도록 요청할 수도 있습니다. AI 도구는 귀하의 지침을 따르고 요구 사항에 따라 코드 파일을 만듭니다.

다음은 커서를 사용하여 단일 코드 라인을 작성하지 않고 엔드 투 엔드 데이터 분석 프로젝트를 구축하는 방법에 대한 안내서입니다.

1 단계 : 커서 설치 및 설정

데이터 분석에 Cursor AI를 어떻게 사용할 수 있는지 살펴 보겠습니다.

커서를 설치하려면 www.cursor.com으로 이동하여 OS와 호환되는 버전을 다운로드하고 설치 지침을 따르면 몇 초 안에 설정됩니다.

커서 인터페이스의 모습은 다음과 같습니다.

커서 인터페이스가 있습니다

이 튜토리얼을 따라 가려면 다운로드하십시오 train.csv Kaggle의 감정 분석 데이터 세트의 파일.

그런 다음 “Sentiment Analysis Project”라는 폴더를 작성하고 다운로드 된 Train.csv 파일을 이로 이동하십시오.

마지막으로, 이름이 지정된 빈 파일을 만듭니다 app.py. 프로젝트 폴더는 이제 다음과 같습니다.

감정 분석 프로젝트 폴더

이것은 우리의 작업 디렉토리가 될 것입니다.

이제 파일 -> 열기 폴더로 탐색하여 Cursor 에서이 폴더를 엽니 다.

화면의 오른쪽에는 커서에 프롬프트를 입력 할 수있는 채팅 인터페이스가 있습니다. 여기에는 몇 가지 선택이 있습니다. 드롭 다운에서 “에이전트”를 선택합시다.

이것은 Cursor에게 코드베이스를 탐색하고 코드를 리팩터링하고 디버깅하는 AI 어시스턴트 역할을하도록 지시합니다.

또한 커서 (GPT-4O, Gemini-2.5-Pro 등)와 함께 사용하려는 언어 모델을 선택할 수 있습니다. 고급 코딩 기능으로 잘 알려진 모델 인 Claude-4-Sonnet을 사용하는 것이 좋습니다.

2 단계 : Cursor가 응용 프로그램을 작성하도록 프롬프트

이제이 프롬프트를 Cursor에 입력하여 코드베이스의 교육 데이터 세트를 사용하여 엔드 투 엔드 감정 분석 모델을 작성하도록 요청합니다.

Create a sentiment analysis web app that:

1. Uses a pre-trained DistilBERT model to analyze the sentiment of text (positive, negative, or neutral)
2. Has a simple web interface where users can enter text and see results
3. Shows the sentiment result with appropriate colors (green for positive, red for negative)
4. Runs immediately without needing any training

Please connect all the files properly so that when I enter text and click analyze, it shows me the sentiment result right away.

이 프롬프트를 Cursor에 입력하면 감정 분석 응용 프로그램을 구축하기 위해 코드 파일을 자동으로 생성합니다.

3 단계 : 변경 및 실행 명령 수락

Cursor가 새 파일을 생성하고 코드를 생성하므로 AI 에이전트의 변경 사항을 확인하려면 “수락”을 클릭해야합니다.

Cursor가 모든 코드를 작성한 후 터미널에서 일부 명령을 실행하라는 메시지가 표시 될 수 있습니다. 이러한 명령을 실행하면 필요한 종속성을 설치하고 웹 응용 프로그램을 실행할 수 있습니다.

Cursor 가이 명령을 실행할 수있는 “run”을 클릭하면 다음과 같습니다.

명령 커서를 실행하십시오

Cursor가 응용 프로그램을 구축하면이 링크를 브라우저에 복사하여 붙여 넣습니다.

커서 앱 링크

그렇게하면 감정 분석 웹 응용 프로그램으로 이어질 수 있습니다.

커서가있는 감정 분석 앱

이것은 고용주가 상호 작용할 수있는 본격적인 웹 응용 프로그램입니다. 문장을이 앱에 붙여 넣을 수 있으며 감정을 예측하여 결과를 반환합니다.

현장에서 초보자이고 프로젝트를 제작하려면 커서와 같은 도구가 엄청나게 강력하다고 생각합니다.

대부분의 데이터 전문가는 HTML 및 CSS와 같은 프론트 엔드 프로그래밍 언어를 모르므로 대화식 응용 프로그램에서 프로젝트를 전시 할 수 없습니다.

우리의 코드는 종종 Kaggle Notebooks에 있으며, 이는 똑같은 일을하는 수백 명의 다른 지원자들에 비해 경쟁 우위를 제공하지 않습니다.

그러나 커서와 같은 도구는 경쟁에서 벗어날 수 있습니다. 그것은 당신이 말한 것을 정확하게 코딩하여 아이디어를 현실로 바꾸는 데 도움이 될 수 있습니다.

AI 도구 2 : 팬더 AI

Pandas AI를 사용하면 코드를 작성하지 않고 Pandas 데이터 프레임을 조작하고 분석 할 수 있습니다.

당신은 단지 평범한 영어로 프롬프트를 입력하면 데이터 전처리 및 EDA를 수행하는 복잡성을 줄입니다.

아직 모르는 경우 Pandas는 데이터를 분석하고 조작하는 데 사용할 수있는 파이썬 라이브러리입니다.

데이터를 Pandas 데이터 프레임으로 알려진 것으로 읽은 다음 데이터에서 작업을 수행 할 수 있습니다.

Pandas AI를 사용하여 데이터 전처리, 조작 및 분석을 수행하는 방법의 예를 살펴 보겠습니다.

이 데모의 경우 Kaggle에서 타이타닉 생존 예측 데이터 세트를 사용할 것입니다 (다운로드 train.csv 파일).

이 분석을 위해 Jupyter 노트북, Kaggle 노트북 또는 Google Colab과 같은 Python 노트북 환경을 사용하는 것이 좋습니다. 이 분석의 전체 코드는이 Kaggle 노트북에서 찾을 수 있습니다.

1 단계 : Pandas AI 설치 및 설정

노트북 환경이 준비되면 아래 명령을 입력하여 Pandas AI를 설치하십시오.

!pip install pandasai

다음으로 타이타닉 데이터 프레임을 다음 줄의 코드 라인으로로드하십시오.

import pandas as pd

train_data = pd.read_csv('/kaggle/input/titanic/train.csv')

이제 다음 라이브러리를 가져 오겠습니다.

import os
from pandasai import SmartDataframe
from pandasai.llm.openai import OpenAI

다음으로 타이타닉 트레인 데이터 세트를 분석하려면 팬더 AI 객체를 만들어야합니다.

이것이 의미하는 바입니다.

Pandas AI는 Pandas 데이터 프레임을 큰 언어 모델에 연결하는 라이브러리입니다. Pandas AI를 사용하여 GPT-4O, Claude-3.5 및 기타 LLM에 연결할 수 있습니다.

기본적으로 Pandas AI는 Bamboo LLM이라는 언어 모델을 사용합니다. Pandas AI를 언어 모델에 연결하려면이 웹 사이트를 방문하여 API 키를 얻을 수 있습니다.

그런 다음이 코드 블록에 API 키를 입력하여 Pandas AI 객체를 만듭니다.

# Set the PandasAI API key
# By default, unless you choose a different LLM, it will use BambooLLM.
# You can get your free API key by signing up at 
os.environ['PANDASAI_API_KEY'] = 'your-pandasai-api-key'  # Replace with your actual key

# Create SmartDataframe with default LLM (Bamboo)
smart_df = SmartDataframe(train_data)

개인적으로 Bamboo LLM API 키를 검색하는 데 몇 가지 문제가있었습니다. 이로 인해 OpenAI에서 API 키를 얻기로 결정했습니다. 그런 다음이 분석에 GPT-4O 모델을 사용했습니다.

이 접근 방식의 한 가지주의 사항은 OpenAI의 API 키가 무료가 아니라는 것입니다. 이 모델을 사용하려면 OpenAI의 API 토큰을 구매해야합니다.

이렇게하려면 AI의 웹 사이트를 열고 Billings 페이지에서 토큰을 구매하십시오. 그런 다음 “API 키”페이지로 이동하여 API 키를 만들 수 있습니다.

OpenAI API 키가 있으므로 GPT-4O 모델을 Pandas AI에 연결하려면이 코드 블록에 입력해야합니다.

# Set your OpenAI API key 
os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

# Initialize OpenAI LLM
llm = OpenAI(api_token=os.environ["OPENAI_API_KEY"], model="gpt-4o")

config = {
    "llm": llm,
    "enable_cache": False,
    "verbose": False,
    "save_logs": True
}

# Create SmartDataframe with explicit configuration
smart_df = SmartDataframe(train_data, config=config)

이제이 Pandas AI 객체를 사용하여 타이타닉 데이터 세트를 분석 할 수 있습니다.

2 단계 : Pandas AI를 사용한 EDA 및 데이터 전처리

먼저, Pandas AI 에게이 데이터 세트를 설명하도록 요청하는 간단한 프롬프트부터 시작하겠습니다.

smart_df.chat("Can you describe this dataset and provide a summary, format the output as a table.")

데이터 세트의 기본 통계 요약으로 다음과 같은 결과가 표시됩니다.

타이타닉 데이터 세트 설명

일반적으로 우리는 이와 같은 요약을 얻기 위해 코드를 작성합니다. 그러나 Pandas AI를 사용하면 프롬프트를 작성하면됩니다.

이렇게하면 일부 데이터를 분석하고 싶지만 Python 코드를 작성하는 방법을 모르는 초보자라면 많은 시간이 절약됩니다.

다음으로 Pandas AI를 사용하여 탐색 적 데이터 분석을 수행하겠습니다.

타이타닉 데이터 세트의 “생존”변수 간의 관계와 데이터 세트의 다른 변수와의 관계를 제공하도록 요청합니다.

smart_df.chat("Are there correlations between Survived and the following variables: Age, Sex, Ticket Fare. Format this output as a table.")

위의 프롬프트는 “생존”과 데이터 세트의 다른 변수 사이의 상관 계수를 제공해야합니다.

다음으로 Pandas AI에게 이러한 변수 간의 관계를 시각화하는 데 도움이되도록 요청하겠습니다.

1. 살아 남았고 나이

smart_df.chat("Can you visualize the relationship between the Survived and Age columns?")

위의 프롬프트는 다음과 같은 히스토그램을 제공해야합니다.

타이타닉 데이터 세트 연령 분포

이 영상은 젊은 승객들이 충돌에서 살아남을 가능성이 더 높다는 것을 알려줍니다.

2. 살아 남았고 성별

smart_df.chat("Can you visualize the relationship between the Survived and Sex")

“생존”과“성별”의 관계를 보여주는 막대 차트를 가져와야합니다.

3. 살아 남았고 운임

smart_df.chat("Can you visualize the relationship between the Survived and Fare")

위의 프롬프트는 박스 플롯을 만들어서 더 높은 요금 가격을 지불 한 승객이 타이타닉 충돌에서 살아남을 가능성이 높다고 말했습니다.

LLM은 비 결정적이므로, 이는 출력이 나와 다를 수 있음을 의미합니다. 그러나 여전히 데이터 세트를 더 잘 이해하는 데 도움이되는 응답을 얻을 수 있습니다.

다음으로, 우리는 다음과 같은 프롬프트로 일부 데이터 전처리를 수행 할 수 있습니다.

프롬프트 예제 1

smart_df.chat("Analyze the quality of this dataset. Identify missing values, outliers, and potential data issues that would need to be addressed before we build a model to predict survival.")

프롬프트 예제 2

smart_df.chat("Let's drop the cabin column from the dataframe as it has too many missing values.")

프롬프트 예제 3

smart_df.chat("Let's impute the Age column with the median value.")

Pandas AI 로이 데이터 세트를 정리하는 데 사용한 모든 전처리 단계를 살펴보고 싶다면 Kaggle 노트북에서 전체 프롬프트 및 코드를 찾을 수 있습니다.

5 분도 채되지 않아 결 측값을 처리하고 범주 형 변수를 인코딩하며 새로운 기능을 만들어이 데이터 세트를 전처리 할 수있었습니다. 이것은 많은 Python 코드를 작성하지 않고 수행되었으며, 프로그래밍을 처음 접하는 경우 특히 유용합니다.

데이터 분석을 위해 AI를 배우는 방법 : 다음 단계

제 생각에는 Cursor 및 Pandas AI와 같은 도구의 주요 판매 지점은 프로그래밍 인터페이스 내에서 데이터를 분석하고 코드를 편집 할 수 있다는 것입니다.

이것은 프로그래밍 IDE에서 코드를 Chatgpt와 같은 인터페이스에 복사하여 붙여 넣어야하는 것보다 훨씬 낫습니다.

또한 CodeBase가 증가함에 따라 (예 : 수천 개의 코드 라인과 10 개 이상의 데이터 세트가있는 경우) 모든 컨텍스트를 갖고 이러한 코드 파일 간의 연결을 이해할 수있는 통합 AI 도구를 갖는 것이 매우 유용합니다.

데이터 분석을 위해 AI를 배우려면 도움이 된 더 많은 도구가 있습니다.

Github Copilot :이 도구는 커서와 유사합니다. 프로그래밍 IDE 내에서이를 사용하여 코드 제안을 생성 할 수 있으며 상호 작용할 수있는 채팅 인터페이스도 있습니다.
Excel의 Microsoft Copilot :이 AI 도구를 사용하면 스프레드 시트의 데이터를 자동으로 분석 할 수 있습니다.
Excel의 Python : Excel 내에서 Python 코드를 실행할 수있는 확장자입니다. 이것은 AI 도구는 아니지만 다른 응용 프로그램간에 전환하지 않고도 데이터 분석을 중앙 집중화 할 수 있으므로 매우 유용하다는 것을 알았습니다.

Natassha Selvaraj 글쓰기에 대한 열정을 가진 자립 데이터 과학자입니다. Natassha는 모든 데이터 주제의 진정한 마스터 인 Data Science 관련 Everything에 글을 씁니다. LinkedIn에서 그녀와 연결하거나 YouTube 채널을 확인할 수 있습니다.

출처 참조