BigQuery에서 Genai를 시작하기 : 단계별 가이드
개요
회사는 지속적으로 성장하는 데이터베이스에서 중요한 정보를 추출하는 방법을 지속적으로 찾고 있습니다. 머신 러닝은이 미션에서 게임 체인저가되어 사용자 행동을 예측하고 신흥 트렌드를 발견하며 복잡한 의사 결정을 자동화 할 수 있습니다.
Google Cloud의 BigQuery ML은 모델 교육을 데이터웨어 하우스에 직접 가져와 ML을 다루는 방식을 완전히 재정의했습니다. 즉, 간단한 SQL 쿼리를 작성하고 배포하여 정교한 ML 모델을 제시 할 수있어 복잡한 데이터를 이동하거나 다른 별도의 ML 플랫폼과 통합 할 필요가 없습니다.
데이터 분석을 더욱 높일 수 있다면 어떨까요? 사진은 텍스트 데이터의 뉘앙스를 쉽게 분석하고 파악할 수 있으며 고객 피드백, 소셜 미디어 의견 또는 제품 리뷰에 묻힌 통찰력의 보물을 드러냅니다. Gemini는 NLP (Natural Language Processing) 기능을 제공하여 정서 분석, 주제 추출 및 텍스트 분류와 같은 작업을 수행 할 수 있도록 자연 언어 처리 (NLP) 기능을 제공합니다.
이 포괄적 인 안내서는 BigQuery 환경 내에서 생성 AI의 힘을 공개하여 잠재력을 활용하기위한 실용적이고 실습적인 접근 방식을 제공합니다. 이 게시물의 주요 하이라이트는 Gemini 모델을 사용하여 Gemini Product 릴리스 노트를 요약하는 방법에 대해 단계별로 걸어 갈 것이라는 점입니다.이 획기적인 기술에 대한 최신 통찰력을 제공합니다. 이를 위해 우리는 제품 릴리스에 대한 정보를 저장하는 BigQuery Public 데이터 세트를 사용할 것입니다.
설정 지침
- 시작하기 전에 GCP 프로젝트를 선택하고 청구 계정을 연결하고 필요한 API를 활성화하십시오. 여기에 전체 지침.
- 여기 단계를 따라 모델을 저장할 BigQuery 데이터 세트를 만듭니다.
- 클라우드 리소스 연결을 만들고 연결 서비스 계정을 얻으십시오. 전체 가이드는 여기에 있습니다.
- 여기 단계를 따라 서비스 계정에 대한 액세스 권한을 부여하십시오.
- 우리가 사용할 데이터 세트를 살펴 보겠습니다.
SELECT * FROM `bigquery-public-data.google_cloud_release_notes.release_notes`
LIMIT 10;
제품 릴리스 노트 요약
Gemini의 릴리스 노트를 요약 한 예를 살펴 보겠습니다.
1. 모델을 만듭니다
vertex AI Foundation 모델을 사용하는 BigQuery에서 원격 모델을 만듭니다.
통사론:
CREATE OR REPLACE MODEL
`PROJECT_ID.DATASET_ID.MODEL_NAME`
REMOTE WITH CONNECTION `PROJECT_ID.REGION.CONNECTION_ID`
OPTIONS (ENDPOINT = 'ENDPOINT');
Code example:
- 바꾸다
'[PROJECT_ID.DATASET_ID.MODEL_NAME]'
당신과 함께project_id
,,,dataset_id
그리고model name
. - 바꾸다
'[PROJECT_ID.REGION.CONNECTION_ID]'
당신과 함께project_id
,,,region
그리고connection_id
.
CREATE OR REPLACE MODEL
`[PROJECT_ID.DATASET_ID.MODEL_NAME]`
REMOTE WITH CONNECTION `[PROJECT_ID.REGION.CONNECTION_ID]`
OPTIONS (ENDPOINT = 'gemini-pro');
2. 데이터 세트의 샘플을 만들어 봅시다
이 예에서는 데이터의 하위 집합에서만 작동합니다. 우리는 집중할 것입니다 release_note_type
2023 년부터 시작하여 제품 “gemini”의 경우, 우리는이 데이터 세트의 하위 집합에 대한 테이블을 만들 것입니다.
우리는 또한 새로운 열을 만들고 있습니다 'combined_description'
우리가 열 설명의 값을 집계하는 곳 release_note_type
.
바꾸다 '[PROJECT_ID.DATASET_ID.TABLE_NAME]'
당신과 함께 project_id
,,, dataset_id
그리고 table_name
:
CREATE or REPLACE TABLE `[PROJECT_ID.DATASET_ID.TABLE_NAME]` AS
SELECT
release_note_type,
ARRAY_TO_STRING(ARRAY_AGG(description), "; ") AS combined_description
FROM
`bigquery-public-data.google_cloud_release_notes.release_notes`
WHERE published_at > '2023-01-01'
AND product_name = "Gemini"
GROUP BY
release_note_type;
SELECT * FROM `[PROJECT_ID.DATASET_ID.TABLE_NAME]`;
3. 텍스트를 생성합니다
몇 줄의 SQL을 사용하면 해당 모델과 ML.GENERATE_TEXT
기능.
그만큼 ML.GENERATE_TEXT
구문은 원격 모델이 목표로하는 정점 AI 모델에 따라 다릅니다. 모든 매개 변수를 이해하려면 문서를 읽으십시오. ML.GENERATE_TEXT
기능.
통사론:
ML.GENERATE_TEXT(
MODEL project_id.dataset.model,
{ TABLE project_id.dataset.table | (query_statement) },
STRUCT(
[max_output_tokens AS max_output_tokens]
[, top_k AS top_k]
[, top_p AS top_p]
[, temperature AS temperature]
[, flatten_json_output AS flatten_json_output]
[, stop_sequences AS stop_sequences])
)
Code example:
- 바꾸다
'[PROJECT_ID.DATASET_ID.TABLE_NAME]'
당신과 함께project_id
그리고dataset_id
. - 바꾸다
'[PROJECT_ID.DATASET_ID.MODEL_NAME]'
당신과 함께project_id
,,,dataset_id
그리고model name
.
CREATE OR REPLACE TABLE `[PROJECT_ID.DATASET_ID.TABLE_NAME]` AS
WITH
PROMPT AS (
SELECT release_note_type, combined_description, CONCAT('You are a helpful AI assistant summarizing Google Cloud release notes. Your task is to provide a concise summary of the release notes ' , combined_description)
AS prompt
FROM
`[PROJECT_ID.DATASET_ID.TABLE_NAME]`
),
SUMMARY_GENERATION AS (
SELECT *
FROM
ML.GENERATE_TEXT(
MODEL `[PROJECT_ID.DATASET_ID.MODEL_NAME]`,
(SELECT * FROM PROMPT),
STRUCT(150 AS max_output_tokens,
0.25 AS temperature,
35 AS top_k,
1.0 AS top_p,
TRUE AS flatten_json_output))
)
SELECT release_note_type, combined_description, ml_generate_text_llm_result as review_summary, FROM SUMMARY_GENERATION;
SELECT * FROM `[PROJECT_ID.DATASET_ID.TABLE_NAME]`
4. 결과
우리는이 모델에 “Google Cloud Release Notes를 요약하는 AI 보조자”역할을하도록 지시했습니다. 그런 다음이 모델은이 음표를 처리하고 간결한 요약을 생성했습니다.
그만큼 ML.GENERATE_TEXT
함수 입력 테이블과 다음 열을 반환합니다.
- ml_generate_text_result: 이것은 JSON 응답이며 생성 된 텍스트는 텍스트 요소에 있습니다.
- ml_generate_text_llm_result: 생성 된 텍스트를 포함하는 문자열 값. 이 열은 다음에 반환됩니다
flatten_json_output
~이다TRUE
. - ml_generate_text_status: 해당 행의 API 응답 상태를 포함하는 문자열 값. 작업이 성공하면이 값이 비어 있습니다.
- ml_generate_text_ground_result: 모델이 추가 정보를 수집하는 데 사용한 접지 소스 목록이 포함 된 문자열 값.
결론
전반적으로, 우리는 Gemini를 사용하여 신속한 엔지니어링을 수행하고 BigQuery Data Row를 규모에 따라 분석 할 수 있습니다. Vertex AI를 통한 Gemini 모델과 BigQuery의 통합을 통해 SQL을 사용하여 Gemini와 상호 작용하고 BigQuery 규모를 활용할 수 있습니다. 구조화, 반 구조화 및 비정형 데이터를 분석하여 새로운 통찰력을 얻고 새로운 분석 응용 프로그램을 가능하게합니다.
텍스트 요약, 질문 및 응답, 기능 추출 및 감정 분석을 포함한 여러 작업에 Gemini를 사용할 수 있습니다. 또한 컨텐츠를 생성하고 데이터를 향상시키는 데 도움이 될 수 있습니다. 또한 고급 다중 공학 기능을 갖춘 Gemini 모델 제품군은 텍스트, 이미지 또는 비디오의 조합과 같이 입력 할 수 있습니다. 이것은 객체 인식, 캡션, 설명 및 디지털 컨텐츠 이해와 같은 수많은 사용 사례에 대한 문을 열어줍니다.
ML.generate_Text 함수를 확인하여 사용 가능한 모델과 ML.generate_text 함수를 사용하여 텍스트를 생성하는 방법에 대해 자세히 알아 보려면 여기에서 ml.generate_text 기능을 확인하십시오.
Post Comment