데이터 과학 프로젝트를위한 상위 10 개 무료 API 제공 업체

데이터 과학 프로젝트를위한 상위 10 개 무료 API 제공 업체

데이터 과학 프로젝트를위한 상위 10 개 무료 API 제공 업체데이터 과학 프로젝트를위한 상위 10 개 무료 API 제공 업체
저자의 이미지 | chatgpt

소개

데이터 과학 프로젝트에 대한 실제 데이터를 얻는 것이 가장 어려운 부분입니다. 장난감 데이터 세트는 찾기가 쉽지만 고품질 또는 실시간 데이터의 경우 일반적으로 API를 사용하거나 사용자 정의 스크래핑 파이프 라인을 구축하여 웹에서 정보를 추출해야합니다.

이 기사에서는 데이터 수집, 데이터 통합 ​​및 AI 에이전트 구축에 매일 사용하는 10 개의 좋아하는 무료 API를 공유합니다. 이 API는 신뢰할 수있는 데이터 리포지토리, 웹 스크래핑 및 웹 검색에 걸친 5 가지 범주로 구성되므로 올바른 도구를 빠르게 선택하고 데이터에서 통찰력으로 더 빠르게 이동할 수 있습니다.

기초 데이터 저장소

기초 데이터 저장소는 다양한 조직과 오픈 소스 기고자가 데이터 세트를 더 넓은 세계와 공유하는 커뮤니티 기반 플랫폼입니다. 간단한 명령으로 프로젝트에 대한 이러한 데이터 세트에 액세스 할 수 있습니다.

// 1. Kaggle API

Kaggle 데이터 세트는 데이터 과학 프로젝트를 수행 할 때 매우 인기가 있습니다. 수동으로 다운로드하는 대신 데이터 세트를 자동으로 다운로드하고 압축을 풀고 작업 공간에로드하는 데이터 파이프 라인을 만들 수 있습니다.

이 데이터 세트는 모든 사람이 사용할 수 있도록 오픈 소스 커뮤니티에서 공유합니다. 시작하려면 Kaggle 계정에서 API 키를 생성하여 환경 변수로 설정하십시오. 그런 다음 터미널에서 다음 명령을 실행할 수 있습니다. Kaggle은 또한 Python SDK를 제공하여 코드와 쉽게 통합 할 수 있습니다.

kaggle datasets download -d kingabzpro/world-vaccine-progress -p data --unzip

// 2. 포옹 얼굴 Cli

Kaggle과 유사하게 포옹 얼굴 또한 사람들이 데이터 세트, 모델 및 데모를 공유하는 데이터 과학 및 기계 학습 커뮤니티입니다. Hugging Face CLI를 쉽게 설치하고 CLI 명령 또는 Python 코드를 사용하여 워크 플로에 통합 할 수 있습니다. 두 옵션 모두 API 키없이 데이터 세트를 다운로드 할 수 있습니다.

API 키는 데이터 세트가 게이트 될 때만 필요합니다.

hf download kingabzpro/dermatology-qa-firecrawl-dataset

웹 및 크롤링 API

웹에는 다양한 데이터가 포함되어 있습니다. 위에서 언급 한 플랫폼에서 필요한 정보를 찾을 수없는 경우 웹을 긁거나 웹 검색 API를 사용하여 자신의 데이터를 선별해야 할 수도 있습니다.

// 3. FireCrawl

폭죽 웹 사이트에서 컨텐츠를 추출하고 더 쉬운 AI 통합을 위해 마크 다운 형식으로 변환하기위한 API를 제공합니다. 또한 고급 웹 스크래핑 옵션을 위해 LLM (큰 언어 모델)과 통합되는 스크래핑 및 추출 API가 제공됩니다.

이 API는 필수품입니다. 데이터 생성 및 AI 프로젝트에 통합하는 데 매일 사용합니다.

curl -s -X POST " \
  -H "Authorization: Bearer $FIRECRAWL_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "
    "formats": ["markdown", "html"]
  }'

// 4. 녹은 사람

멜터 한 달에 1,000 개의 검색 요청을 무료로 제공하는 빠른 웹 검색 API입니다. 정확하고 빠릅니다. 이를 사용하여 데이터 세트를 작성하거나 AI 프로젝트에 통합하거나 개발 요구에 대한 간단한 검색 API로 활용할 수 있습니다.

curl --request POST \
  --url  \
  --header "Authorization: Bearer " \
  --header "Content-Type: application/json" \
  --data '{
    "query": "who is Leo Messi?",
    "auto_parameters": false,
    "topic": "general",
    "search_depth": "basic",
    "chunks_per_source": 3,
    "max_results": 1,
    "days": 7,
    "include_answer": true,
    "include_raw_content": true,
    "include_images": false,
    "include_image_descriptions": false,
    "include_favicon": false,
    "include_domains": [],
    "exclude_domains": [],
    "country": null
  }'

지리 공간 및 날씨 API

날씨와 지리 공간 데이터 세트를 찾고 있다면 상황이 계속 변화한다는 것을 알게 될 것입니다. 그렇기 때문에 API를 통해 이러한 데이터 세트에 실시간 액세스해야합니다.

// 5. Openweathermap

Openweathermap 현재 조건, 예측, 현재 캐스트, 역사적 기록, 심지어 1 분마다 초로적 강수량 예측을 포함하여 API를 통해 글로벌 날씨 데이터를 제공하는 서비스입니다.

curl "

// 6. OpenStreetMap

OpenStreet지도 세계지도 데이터를 제공합니다 API를 가버지 OSM의 사용자 정의 선택 부분을 제공하고 육교 QL로 쿼리 할 수있는 읽기 전용 웹 데이터베이스입니다. 아래의 예는 작은 런던 경계 박스 내에서 카페 노드를 가져옵니다.

curl -G " \
  --data-urlencode 'data=[out:json];node["amenity"="cafe"](51.50,-0.15,51.52,-0.10);out;'

금융 시장 데이터 API

금융 시장 데이터 API는 금융 프로젝트를 진행하고 주식, 암호화 및 기타 금융 관련 정보 및 뉴스에 대한 실시간 데이터가 필요한 경우 적극 권장됩니다.

// 7. Alpha Vantage

알파 유리한 JSON 또는 CSV의 출력이있는 주식, 외환, 암호 화폐, 상품 및 옵션에 걸쳐 실시간 및 역사적 시장 데이터를위한 무료 API를 제공하는 재무 데이터 플랫폼입니다. 또한 IntradAy, Daily, Weekly 및 Monthly 간격 및 분석을 위해 50 개가 넘는 기술 지표에서 차트 준비 시계열을 제공합니다.

curl "

// 8. 야후 금융

많은 초보자와 실무자가 사용합니다 yfinance API는 기본 메타 데이터뿐만 아니라 주식 견적, 역사 시계열 데이터, 배당금 및 분할에 액세스합니다. 이를 통해 빠른 프로토 타입 및 교실 프로젝트를위한 분석 준비 데이터 프레임을 만들 수 있습니다.

야후 금융 무료 주식 견적, 뉴스, 포트폴리오 도구 및 국제 시장의 적용 범위를 제공하여 사용자는 직접 비용없이 광범위한 시장 데이터를 탐색 할 수 있습니다.

import yfinance as yf
print(yf.download("AAPL", period="1y").head())

소셜 및 커뮤니티 데이터 API

최고의 소셜 미디어 플랫폼에서 텍스트 및 커뮤니티 대화를 분석하기위한 프로젝트를 진행하는 경우 이러한 API는 실제 소셜 미디어 데이터에 쉽게 액세스 할 수 있습니다.

// 9. 레딧

레딧 풍부하고 커뮤니티 중심의 데이터 소스를 제공합니다 Python Reddit API 랩퍼 (권리) Python의 게시물, 댓글 및 하위 레드 트릿 메타 데이터와 같은 작업에 대해 공식 Reddit API에 간단하게 액세스 할 수 있습니다.

PRAW는 Reddit의 API에 요청을 보내서 작업을 수행하기 위해 토론 스레드를 수집하기 위해 교육 및 연구에 일반적으로 사용됩니다.

import praw

r = praw.Reddit(
    client_id="ID",
    client_secret="SECRET",
    user_agent="myapp:ds-project:v1 (by u/yourname)"
)

print([s.title for s in r.subreddit("Python").hot(limit=5)])


// 10. x

엑스 (이전에 Twitter로 알려진)은 사용자 및 컨텐츠 검색을위한 REST 엔드 포인트와 실시간 데이터의 스트리밍 옵션이있는 개발자 플랫폼을 제공합니다. 액세스는 일반적으로 인증, 요금 제한 및 정책 준수, 볼륨 및 사용 사례에 적합한 액세스 계층을 선택해야합니다.

curl -H "Authorization: Bearer YOUR_BEARER_TOKEN" \
  "

최종 생각

이 API는 종종 얻기 어려운 데이터에 대한 무료 액세스를 제공합니다. 웹 데이터를 수집하거나 웹 스크래핑 노력을 개선하는 능력을 크게 향상시켜 맞춤형 데이터 세트를 만들 수 있습니다.

웹에서 고품질의 실시간 데이터가 필요할 때 다시 방문하기 위해이 기사를 북마크하는 것이 좋습니다. 이러한 API를 활용하면 연구 및 분석에 도움이되는 귀중한 통찰력을 잠금 해제 할 수 있습니다.

Abid Ali Awan (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자입니다. 현재 그는 컨텐츠 제작 및 기계 학습 및 데이터 과학 기술에 대한 기술 블로그 작성에 중점을두고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 취득했습니다. 그의 비전은 정신 질환으로 어려움을 겪고있는 학생들을위한 그래프 신경망을 사용하여 AI 제품을 구축하는 것입니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다