데이터 과학 워크로드를 확장하는 8 가지 방법

데이터 과학 워크로드를 확장하는 8 가지 방법

스폰서 콘텐츠

8- 웨이-스케일 데이터 과학8- 웨이-스케일 데이터 과학

문제를 해결하는 대신 도구와 싸우는 데 얼마나 많은 시간을 소비합니까? 모든 데이터 과학자는 다음과 같습니다. 데이터 세트를 다운 샘플링하여 메모리에 맞지 않거나 비즈니스 사용자가 기계 학습 모델과 상호 작용할 수있는 방법을 해킹하지 않기 때문입니다.

이상적인 환경은 방해가되지 않아 분석에 집중할 수 있습니다. 이 기사는 AI 기반 에이전트를 사용하는 것부터 스프레드 시트에서 직접 ML 모델을 제공하는 것까지 정확하게 수행하도록 설계된 BigQuery의 8 가지 실용적인 방법을 다룹니다.

1. 스프레드 시트의 기계 학습

스프레드 시트의 머신 러닝스프레드 시트의 머신 러닝
Google 시트의 BQML 교육 및 예측

많은 데이터 대화가 스프레드 시트에서 시작하고 끝납니다. 그들은 친숙하고 사용하기 쉽고 협업에 좋습니다. 그러나 스프레드 시트에 비해 데이터가 너무 커지거나 많은 코드를 쓰지 않고 예측을 실행하려는 경우 어떻게됩니까? 연결된 시트는 Google Sheets 인터페이스에서 수십억 행의 BigQuery 데이터를 분석 할 수 있도록 도와줍니다. 모든 계산, 차트 및 피벗 테이블은 무대 뒤에서 BigQuery로 구동됩니다.

한 걸음 더 나아가 BigQuery Machine Learning (BQML)으로 만든 모델에도 액세스 할 수 있습니다. 주택 가격을 예측하는 BQML 모델이 있다고 상상해보십시오. 연결된 시트를 사용하면 비즈니스 사용자가 시트를 열고 새 속성 (정사각형 영상, 침실 수, 위치)에 대한 데이터를 입력 할 수 있으며 공식은 BQML 모델을 호출하여 가격 추정치를 반환 할 수 있습니다. Python 또는 API Wrangling이 필요하지 않습니다. 단지 모델을 호출하는 시트 공식. 기계 학습을 비 기술적 팀에 노출시키는 강력한 방법입니다.

2. 비용이 많이 들지 않아 BigQuery Sandbox 및 Colab 노트북

엔터프라이즈 데이터웨어 하우스를 시작하는 데는 종종 청구 계정 설정과 같은 마찰이 포함됩니다. BigQuery 샌드 박스는 해당 장벽을 제거하여 한 달에 최대 1 테라 바이트의 데이터를 쿼리 할 수 있습니다. 신용 카드가 필요하지 않습니다. 대규모 분석을 통해 학습과 실험을 시작하는 훌륭한 비용이 많이 들지 않습니다.

데이터 과학자로서 Colab 노트북에서 BigQuery 샌드 박스에 액세스 할 수 있습니다. 몇 줄의 인증 코드만으로 노트북에서 바로 SQL 쿼리를 실행하고 결과를 Python Dataframe으로 가져와 분석을 위해 결과를 가져올 수 있습니다. 동일한 노트북 환경은 AI 파트너 역할을하여 분석 계획 및 코드 작성에 도움이 될 수 있습니다.

3. Colab 노트북의 AI 기반 파트너

Colab 노트북의 AI 기반 파트너Colab 노트북의 AI 기반 파트너
Colab 노트북의 데이터 과학 에이전트 (시퀀스 단축, 예시 목적을위한 결과)

Colab 노트북은 이제 워크 플로우 속도를 높이도록 설계된 AI-First 경험입니다. 자연어에서 코드를 생성하고 자동 오류 설명을 받고 코드와 함께 조수와 채팅 할 수 있습니다.

Colab 노트북에는 데이터 과학 에이전트가 내장되어 있습니다. 공동 작업 할 수있는 ML 전문가로 생각하십시오. 로컬 CSV 또는 BigQuery 테이블과 같은 데이터 세트로 시작하고 “고객 이탈을 예측하기위한 모델 구축”과 같은 높은 수준의 목표. 에이전트는 제안 된 단계 (예 : 데이터 청소, 기능 엔지니어링, 모델 교육)가있는 계획을 작성하고 코드를 작성합니다.

그리고 당신은 항상 통제하고 있습니다. 에이전트는 노트북 셀에서 직접 코드를 생성하지만 자체적으로 아무것도 실행하지 않습니다. 실행할 내용을 결정하기 전에 각 셀을 검토하고 편집하거나 대리인에게 접근 방식을 다시 생각하고 다른 기술을 시도하도록 요청할 수도 있습니다.

4. BigQuery 데이터 프레임으로 Pandas 워크 플로를 확장하십시오

많은 데이터 과학자들은 노트북에 거주하며 데이터 조작을 위해 Pandas Dataframes를 사용합니다. 그러나 잘 알려진 한계가 있습니다. 처리하는 모든 데이터는 컴퓨터의 메모리에 적합해야합니다. MemoryError 예외는 모두 너무 일반적이므로 데이터를 조기에 다운 샘플링해야합니다.

이것은 BigQuery Dataframes가 해결하는 정확한 문제입니다. Python API를 의도적으로 팬더와 유사하게 제공합니다. 로컬로 실행하는 대신 명령을 SQL로 변환하여 BigQuery 엔진에서 실행합니다. 즉, 친숙한 API와 함께 노트북의 Terabyte-Scale 데이터 세트로 작업 할 수 있으며 메모리 제약에 대한 걱정이 없습니다. 동일한 개념은 모델 훈련에 적용되며, Scikit-Learn-Like API는 모델 교육을 BigQuery ML로 밀어냅니다.

5. BigQuery Studio 노트북의 Spark ML

BigQuery Studio Notebook의 Spark MLBigQuery Studio Notebook의 Spark ML
BigQuery Studio의 샘플 Spark ML 노트북

Apache Spark는 기능 엔지니어링에서 모델 교육에 이르기까지 유용한 도구이지만 인프라를 관리하는 것은 항상 어려운 일이었습니다. Apache Spark의 서버리스를 사용하면 클러스터를 제공하지 않고도 Xgboost, Pytorch 및 Transformers와 같은 라이브러리를 사용하는 작업을 포함하여 Spark 코드를 실행할 수 있습니다. BigQuery 내에서 직접 노트북에서 대화식으로 발전하여 모델 개발에 집중할 수 있으며 BigQuery는 인프라를 처리합니다.

Serverless Spark를 사용하여 BigQuery 창고에서 동일한 데이터 (및 동일한 거버넌스 모델)에서 작동 할 수 있습니다.

6. 공개 데이터 세트로 외부 컨텍스트를 추가하십시오

공개 데이터 세트와 함께 외부 컨텍스트를 추가하십시오공개 데이터 세트와 함께 외부 컨텍스트를 추가하십시오
2025 년 7 월 초에 로스 앤젤레스 지역의 상위 5 개 트렌드 조건

당사자 데이터는 무슨 일이 있었는지 알려주지 만 항상 이유를 설명 할 수는 없습니다. 해당 컨텍스트를 찾으려면 BigQuery에서 사용할 수있는 대규모 공개 데이터 세트 모음과 데이터에 참여할 수 있습니다.

당신이 소매 브랜드의 데이터 과학자라고 상상해보십시오. 태평양 북서부의 비옷 판매가 급증하는 것을 볼 수 있습니다. 최근 마케팅 캠페인 이었습니까? BigQuery의 Google Trends 데이터 세트와 판매 데이터에 참여하면 동일한 지역과 기간에 “방수 재킷”에 대한 검색 쿼리가 급증하는지 신속하게 확인할 수 있습니다.

아니면 새 상점을 계획한다고 가정 해 봅시다. Places Insights 데이터 세트를 사용하여 잠재적 인 지역의 트래픽 패턴 및 비즈니스 밀도를 분석하여 고객 정보 위에 계층화하여 최상의 위치를 선택할 수 있습니다. 이러한 공개 데이터 세트를 사용하면 실제 요소를 설명하는 더 풍부한 모델을 구축 할 수 있습니다.

7. 지리 공간 분석 규모

지리 공간 분석지리 공간 분석
허리케인의 BigQuery geo viz 맵, 반경과 풍속을 나타내는 색상을 사용

모델에 대한 위치 인식 기능은 복잡 할 수 있지만 BigQuery는 A를 지원함으로써이를 단순화합니다. GEOGRAPHY SQL 내 데이터 유형 및 표준 GIS 기능. 이를 통해 소스에서 공간 기능을 바로 엔지니어링 할 수 있습니다. 예를 들어, 부동산 가격을 예측하기위한 모델을 구축하는 경우 ST_DWITHIN과 같은 함수를 사용하여 각 속성의 1 마일 반경 내에서 대중 교통 정지 수를 계산할 수 있습니다. 그런 다음 해당 값을 모델에 직접 사용할 수 있습니다.

위성 이미지 및 환경 데이터를 BigQuery로 가져 오는 Google Earth Engine Integration을 통해이를 추가로 취할 수 있습니다. 동일한 부동산 모델의 경우 Earth Engine의 데이터를 쿼리하여 역사적 홍수 위험이나 나무 덮개의 밀도와 같은 기능을 추가 할 수 있습니다. 이를 통해 Planet-Scale 환경 정보로 비즈니스 데이터를 확대하여 훨씬 더 풍부한 모델을 구축 할 수 있습니다.

8. 로그 데이터를 이해하십시오

대부분의 사람들은 분석 데이터에 대한 BigQuery를 생각하지만 운영 데이터의 강력한 대상이기도합니다. 모든 클라우드 로깅 데이터를 BigQuery로 라우팅하여 구조화되지 않은 텍스트 로그를 쿼리 가능한 리소스로 전환 할 수 있습니다. 이를 통해 모든 서비스에서 로그를 통해 SQL을 실행하여 문제를 진단, 성능을 추적하거나 보안 이벤트를 분석 할 수 있습니다.

데이터 과학자의 경우이 클라우드 로깅 데이터는 예측을 구축 할 수있는 풍부한 소스입니다. 사용자 활동의 하락을 조사한다고 상상해보십시오. 로그에서 오류 메시지를 식별 한 후 BigQuery 벡터 검색을 사용하여 정확히 동일한 텍스트를 포함하지 않더라도 의미 적으로 유사한 로그를 찾을 수 있습니다. 이는 동일한 근본 원인의 일부인 “사용자 토큰 유효하지 않은”및 “인증 실패”와 같은 관련 문제를 드러내는 데 도움이 될 수 있습니다. 그런 다음이 라벨이 붙은 데이터를 사용하여 패턴을 사전에 깃발로하는 이상 탐지 모델을 훈련시킬 수 있습니다.

결론

바라건대,이 예들은 다음 프로젝트에 대한 새로운 아이디어를 불러 일으키기를 바랍니다. 팬더 데이터 프레임 스케일링에서 지리 데이터를 갖춘 엔지니어링 기능에 이르기까지 목표는 친숙한 도구로 규모로 일하는 데 도움이되는 것입니다.

샷을 줄 준비가 되셨습니까? BigQuery Sandbox에서 오늘 무료로 탐색 할 수 있습니다!

저자 : Jeff Nelson, 개발자 관계 엔지니어

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다