뉴스 정보 뉴스 컴퓨터 소프트웨어 및 개발 NLP, 기계 학습, 일체 포함 Min-jun (민준) 5월 13, 2025 0 Comments

BigQuery에서 Genai를 시작하기 : 단계별 가이드

개요

회사는 지속적으로 성장하는 데이터베이스에서 중요한 정보를 추출하는 방법을 지속적으로 찾고 있습니다. 머신 러닝은이 미션에서 게임 체인저가되어 사용자 행동을 예측하고 신흥 트렌드를 발견하며 복잡한 의사 결정을 자동화 할 수 있습니다.

Google Cloud의 BigQuery ML은 모델 교육을 데이터웨어 하우스에 직접 가져와 ML을 다루는 방식을 완전히 재정의했습니다. 즉, 간단한 SQL 쿼리를 작성하고 배포하여 정교한 ML 모델을 제시 할 수있어 복잡한 데이터를 이동하거나 다른 별도의 ML 플랫폼과 통합 할 필요가 없습니다.

데이터 분석을 더욱 높일 수 있다면 어떨까요? 사진은 텍스트 데이터의 뉘앙스를 쉽게 분석하고 파악할 수 있으며 고객 피드백, 소셜 미디어 의견 또는 제품 리뷰에 묻힌 통찰력의 보물을 드러냅니다. Gemini는 NLP (Natural Language Processing) 기능을 제공하여 정서 분석, 주제 추출 및 텍스트 분류와 같은 작업을 수행 할 수 있도록 자연 언어 처리 (NLP) 기능을 제공합니다.

이 포괄적 인 안내서는 BigQuery 환경 내에서 생성 AI의 힘을 공개하여 잠재력을 활용하기위한 실용적이고 실습적인 접근 방식을 제공합니다. 이 게시물의 주요 하이라이트는 Gemini 모델을 사용하여 Gemini Product 릴리스 노트를 요약하는 방법에 대해 단계별로 걸어 갈 것이라는 점입니다.이 획기적인 기술에 대한 최신 통찰력을 제공합니다. 이를 위해 우리는 제품 릴리스에 대한 정보를 저장하는 BigQuery Public 데이터 세트를 사용할 것입니다.

설정 지침

시작하기 전에 GCP 프로젝트를 선택하고 청구 계정을 연결하고 필요한 API를 활성화하십시오. 여기에 전체 지침.
여기 단계를 따라 모델을 저장할 BigQuery 데이터 세트를 만듭니다.
클라우드 리소스 연결을 만들고 연결 서비스 계정을 얻으십시오. 전체 가이드는 여기에 있습니다.
여기 단계를 따라 서비스 계정에 대한 액세스 권한을 부여하십시오.
우리가 사용할 데이터 세트를 살펴 보겠습니다.

SELECT * FROM `bigquery-public-data.google_cloud_release_notes.release_notes`
LIMIT 10;

제품 릴리스 노트 요약

Gemini의 릴리스 노트를 요약 한 예를 살펴 보겠습니다.

1. 모델을 만듭니다

vertex AI Foundation 모델을 사용하는 BigQuery에서 원격 모델을 만듭니다.

통사론:

CREATE OR REPLACE MODEL
`PROJECT_ID.DATASET_ID.MODEL_NAME`
REMOTE WITH CONNECTION `PROJECT_ID.REGION.CONNECTION_ID`
OPTIONS (ENDPOINT = 'ENDPOINT');

Code example:

바꾸다 '[PROJECT_ID.DATASET_ID.MODEL_NAME]' 당신과 함께 project_id,,, dataset_id그리고 model name.
바꾸다 '[PROJECT_ID.REGION.CONNECTION_ID]' 당신과 함께 project_id,,, region그리고 connection_id.

CREATE OR REPLACE MODEL
`[PROJECT_ID.DATASET_ID.MODEL_NAME]`
REMOTE WITH CONNECTION `[PROJECT_ID.REGION.CONNECTION_ID]`
OPTIONS (ENDPOINT = 'gemini-pro');

2. 데이터 세트의 샘플을 만들어 봅시다

이 예에서는 데이터의 하위 집합에서만 작동합니다. 우리는 집중할 것입니다 release_note_type 2023 년부터 시작하여 제품 “gemini”의 경우, 우리는이 데이터 세트의 하위 집합에 대한 테이블을 만들 것입니다.

우리는 또한 새로운 열을 만들고 있습니다 'combined_description'우리가 열 설명의 값을 집계하는 곳 release_note_type.

바꾸다 '[PROJECT_ID.DATASET_ID.TABLE_NAME]' 당신과 함께 project_id,,, dataset_id그리고 table_name:

CREATE or REPLACE TABLE `[PROJECT_ID.DATASET_ID.TABLE_NAME]` AS
SELECT
 release_note_type,
 ARRAY_TO_STRING(ARRAY_AGG(description), "; ") AS combined_description
FROM
`bigquery-public-data.google_cloud_release_notes.release_notes`
WHERE published_at > '2023-01-01'
AND product_name = "Gemini"
GROUP BY
 release_note_type;
 
 SELECT * FROM `[PROJECT_ID.DATASET_ID.TABLE_NAME]`;

3. 텍스트를 생성합니다

몇 줄의 SQL을 사용하면 해당 모델과 ML.GENERATE_TEXT 기능.

그만큼 ML.GENERATE_TEXT 구문은 원격 모델이 목표로하는 정점 AI 모델에 따라 다릅니다. 모든 매개 변수를 이해하려면 문서를 읽으십시오. ML.GENERATE_TEXT 기능.

통사론:

ML.GENERATE_TEXT(
MODEL project_id.dataset.model,
{ TABLE project_id.dataset.table | (query_statement) },
STRUCT(
  [max_output_tokens AS max_output_tokens]
  [, top_k AS top_k]
  [, top_p AS top_p]
  [, temperature AS temperature]
  [, flatten_json_output AS flatten_json_output]
  [, stop_sequences AS stop_sequences])
)

Code example:

바꾸다 '[PROJECT_ID.DATASET_ID.TABLE_NAME]' 당신과 함께 project_id 그리고 dataset_id.
바꾸다 '[PROJECT_ID.DATASET_ID.MODEL_NAME]' 당신과 함께 project_id,,, dataset_id그리고 model name.


CREATE OR REPLACE TABLE `[PROJECT_ID.DATASET_ID.TABLE_NAME]` AS

WITH 
PROMPT AS (
 SELECT release_note_type, combined_description, CONCAT('You are a helpful AI assistant summarizing Google Cloud release notes.  Your task is to provide a concise summary of the  release notes ' , combined_description)
 AS prompt
   FROM 
   `[PROJECT_ID.DATASET_ID.TABLE_NAME]`
),
SUMMARY_GENERATION AS (
 SELECT *
 FROM
 ML.GENERATE_TEXT(
   MODEL `[PROJECT_ID.DATASET_ID.MODEL_NAME]`,
   (SELECT * FROM PROMPT),
   STRUCT(150 AS max_output_tokens, 
          0.25 AS temperature,
          35 AS top_k, 
          1.0 AS top_p, 
          TRUE AS flatten_json_output))
)

SELECT release_note_type, combined_description, ml_generate_text_llm_result as review_summary, FROM SUMMARY_GENERATION;

SELECT * FROM `[PROJECT_ID.DATASET_ID.TABLE_NAME]`

4. 결과

우리는이 모델에 “Google Cloud Release Notes를 요약하는 AI 보조자”역할을하도록 지시했습니다. 그런 다음이 모델은이 음표를 처리하고 간결한 요약을 생성했습니다.

그만큼 ML.GENERATE_TEXT 함수 입력 테이블과 다음 열을 반환합니다.

ml_generate_text_result: 이것은 JSON 응답이며 생성 된 텍스트는 텍스트 요소에 있습니다.
ml_generate_text_llm_result: 생성 된 텍스트를 포함하는 문자열 값. 이 열은 다음에 반환됩니다 flatten_json_output ~이다 TRUE.
ml_generate_text_status: 해당 행의 API 응답 상태를 포함하는 문자열 값. 작업이 성공하면이 값이 비어 있습니다.
ml_generate_text_ground_result: 모델이 추가 정보를 수집하는 데 사용한 접지 소스 목록이 포함 된 문자열 값.

결론

전반적으로, 우리는 Gemini를 사용하여 신속한 엔지니어링을 수행하고 BigQuery Data Row를 규모에 따라 분석 할 수 있습니다. Vertex AI를 통한 Gemini 모델과 BigQuery의 통합을 통해 SQL을 사용하여 Gemini와 상호 작용하고 BigQuery 규모를 활용할 수 있습니다. 구조화, 반 구조화 및 비정형 데이터를 분석하여 새로운 통찰력을 얻고 새로운 분석 응용 프로그램을 가능하게합니다.

텍스트 요약, 질문 및 응답, 기능 추출 및 감정 분석을 포함한 여러 작업에 Gemini를 사용할 수 있습니다. 또한 컨텐츠를 생성하고 데이터를 향상시키는 데 도움이 될 수 있습니다. 또한 고급 다중 공학 기능을 갖춘 Gemini 모델 제품군은 텍스트, 이미지 또는 비디오의 조합과 같이 입력 할 수 있습니다. 이것은 객체 인식, 캡션, 설명 및 디지털 컨텐츠 이해와 같은 수많은 사용 사례에 대한 문을 열어줍니다.

ML.generate_Text 함수를 확인하여 사용 가능한 모델과 ML.generate_text 함수를 사용하여 텍스트를 생성하는 방법에 대해 자세히 알아 보려면 여기에서 ml.generate_text 기능을 확인하십시오.

출처 참조