Amazon Sagemaker와 Google BigQuery를 통합합니다
오늘날 조직은 종종 데이터 과학 기능을 극대화하기 위해 다양한 클라우드 플랫폼에서 서비스를 활용해야합니다. 일반적인 시나리오 중 하나는 Amazon Sagemaker의 고급 기계 학습 도구를 사용하여 Google BigQuery에 저장된 데이터를 분석하는 것입니다.
이 기사는 데이터 Wrangler를 통해 Google BigQuery와 Amazon Sagemaker Studio 간의 직접적인 연결을 설정하는 포괄적 인 안내서를 제시하여 데이터 복제의 필요성을 제거하고 데이터 전송 오버 헤드를 줄이는 비용 효율적이고 안전한 솔루션을 제공합니다.
Direct BigQuery 통합의 주요 장점
Google BigQuery와 Amazon Sagemaker Data Wrangler의 직접 통합은 크로스 플랫폼 데이터 분석의 상당한 발전을 나타냅니다. 이 접근법은 엔터프라이즈 데이터 관리 및 분석 워크 플로에서 일반적인 과제를 해결하는 여러 전략적 이점을 제공합니다.
직접 통합은 데이터 복제의 필요성을 제거하고 클라우드 플랫폼 간의 데이터 전송 비용을 줄이므로 비용 최적화는 주요 이점입니다. 조직은 Sagemaker의 고급 분석 기능을 활용하면서 BigQuery로 데이터를 유지할 수 있으며, 저장 및 데이터 이동에 대한 상당한 비용 절감을 초래할 수 있습니다.
직접 연결은 ETL 프로세스와 관련된 기존 지연없이 실시간 데이터 액세스를 가능하게하기 때문에 성능 향상은 또 다른 중요한 이점입니다. BigQuery의 기본 쿼리 최적화 및 병렬 처리 기능을 활용하여 조직은 고성능 표준을 유지하면서 더 빠른 데이터 처리 및 분석을 달성 할 수 있습니다.
데이터 보안 및 준수 고려 사항은이 통합을 통해 효과적으로 해결됩니다. 조직은 원래 환경 내에서 데이터를 유지하고 데이터 이동을 최소화함으로써 보안 관리를 더 잘 유지하고 데이터 거버넌스 요구 사항을 준수 할 수 있습니다. 통합은 세밀한 액세스 제어를 지원하고 모든 데이터 액세스 활동에 대한 포괄적 인 감사 트레일을 유지합니다.
간소화 된 워크 플로를 통해 운영 효율성이 크게 향상되어 중간 데이터 준비 및 복잡한 데이터 파이프 라인 관리가 필요하지 않습니다. 이 직접 액세스 방식은 데이터 과학자와 분석가가 가장 최신 데이터와 협력하면서 운영 복잡성 및 유지 보수 오버 헤드를 줄일 수 있도록합니다.
이 솔루션은 인프라 관리 없이도 데이터 볼륨 및 쿼리 요구를 자동으로 처리하는 놀라운 확장 성 이점을 제공합니다. 이 확장 성은 동시 사용자 액세스 및 유연한 리소스 할당을 지원하여 엔터프라이즈 규모 배포에 적합합니다.
구현 전제 조건
- Amazon Sagemaker Studio 계정: 사용자는 Amazon Sagemaker Studio 계정에 액세스하여 기계 학습 작업을위한 협업 및 통합 개발 환경을 제공해야합니다.
- Google 클라우드 계정: Google BigQuery에 액세스하려면 사용자에게는 Google Cloud 계정과 필요한 데이터 세트를 쿼리하는 데 필요한 권한이있는 프로젝트가 필요합니다.
- 파이썬 라이브러리: Google-Cloud-BigQuery를 포함한 필수 파이썬 라이브러리를 설치하여 Sagemaker Studio의 BigQuery와 상호 작용하십시오.
- Google 클라우드 자격 증명: AWS Secrets Manager에서 Google 클라우드 자격 증명을 설정하고 관리하여 Python 스크립트를 인증하고 BigQuery 데이터에 액세스 할 수 있습니다.
건축학
Amazon Sagemaker Data Wrangler는 Google BigQuery와 완벽하게 통합되어 클라우드 기반 데이터웨어 하우스에서 직접 데이터 연결을 가능하게합니다. 적절한 자격 증명 및 구성을 사용하여 Python 코드는 BigQuery에 대한 안전한 연결을 설정하고 그 안에 저장된 데이터에 액세스합니다.
데이터 연결이 설정되면 Python 코드는 BigQuery 데이터 세트에 대해 쿼리를 실행하여 필요한 데이터를 검색합니다. Sagemaker 데이터 Wrangler는 Python 환경과 BigQuery 간의 통신을 처리하여 데이터를 효율적으로 가져옵니다.
Amazon Sagemaker Data Wrangler는 또한 데이터 프로파일 링 및 시각화 기능을 제공하여 데이터의 구조, 배포 및 잠재적 문제에 대한 통찰력을 제공합니다. 이 기능은 분석 및 모델링 작업을 진행하기 전에 데이터 분석가와 과학자가 데이터를 더 잘 이해하는 데 도움이됩니다.
추가 정보
아래 섹션에는 코드 스 니펫이 포함되어 있습니다.
필요한 패키지를 설치하십시오.
pip install google-cloud-bigquery google-cloud-bigquery-storage
pip install pyarrow db-dtypes
Google 클라우드 자격 증명의 환경 변수를 설정하십시오.
import os
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = "bigqueryconnectiondetails.json"
Google BigQuery Extension을로드하십시오.
%load_ext google.cloud.bigquery
Pandas 라이브러리를 가져옵니다.
SageMaker 데이터 Wrangler를 가져 오십시오. 사용할 수없는 경우 설치하십시오. SAGEMAKER DATA WRANGLER는 자동으로로드, 집계 및 원시 데이터를 표시합니다.
try:
import sagemaker_datawrangler
except ImportError:
!pip install --upgrade sagemaker-datawrangler
import sagemaker_datawrangler
BigQuery 쿼리를 실행하고 데이터를 검색하십시오.
%%bigquery
SELECT * FROM bigquerydemo.usa_population LIMIT 10
Google BigQuery Extension을 다시 설치하고 설치하십시오 pandas-gbq
패키지.
%load_ext google.cloud.bigquery
pip install pandas-gbq
Google BigQuery의 데이터를 Pandas 데이터 프레임으로 읽으십시오.
bayer_df = pd.read_gbq('SELECT * FROM bigquerydemo.usa_population LIMIT 10')
print(bayer_df)
%load_ext google.cloud.bigquery
import pandas as pd
데이터 스토리지의 S3 URL을 정의하고 데이터 프레임을 S3 버킷의 CSV 파일에 저장하십시오.
s3_url="s3://sagemaker-us-east-1-648507418116/sagemakerdemo/usa_population.csv"
bayer_df.to_csv(s3_url)
제한
- 인증 및 보안: Google 클라우드 자격 증명을 관리하고 안전하게 저장하려면 민감한 데이터에 대한 무단 액세스를 피하기 위해주의 깊은주의를 기울여야합니다.
- 데이터 전송 및 대기 시간: 데이터의 크기 및 네트워크 대기 시간에 따라 Sagemaker Studio의 BigQuery 데이터를 쿼리하면 추가 처리 시간이 발생하여 전체 워크 플로 효율에 영향을 줄 수 있습니다.
- 실시간 데이터 액세스:이 기사에서 논의 된 파이썬 기반 접근법은 데이터 전송 및 쿼리 프로세스로 인해 실시간 데이터 액세스에 적합하지 않을 수 있으며, 이로 인해 시간에 민감한 작업에 대한 분석이 지연 될 수 있습니다.
- 서비스 가용성: 사용자는 특정 지역에 제한이 있거나 제한된 기능이있을 수 있으므로 각 지역에서 Amazon Sagemaker 및 Google BigQuery의 가용성을 확인해야합니다.
결론
Data Wrangler를 사용하여 Amazon Sagemaker Studio와 Google BigQuery를 직접 연결하면 여러 클라우드 플랫폼에서 작동하는 조직을위한 실용적이고 효율적인 솔루션을 제공합니다. 이 설정은 팀이 데이터 복제를 피하고 전송 비용을 절약하며 분석 워크 플로우를 간소화하는 데 도움이됩니다. BigQuery 데이터에 대한 실시간 액세스를 통해 데이터 과학자는 불필요하게 데이터를 이동하지 않고도 Sagemaker에서 고급 분석을 수행 할 수 있습니다.
자격 증명 관리, 대기 시간 문제 및 지역 가용성과 같은 몇 가지 제한 사항이 있지만 비용 절감, 운영 단순성 및 확장 성 측면에서 이점이 중요합니다. 이 접근 방식을 통해 기업은 대규모 데이터 프로젝트를 처리하는 데 민첩하고 안전한 상태를 유지하면서 기존 클라우드 투자를 최대한 활용할 수 있습니다.
Post Comment