데이터 잠금 해제 AI 플랫폼 : Multimodal Analytics의 생성 AI
스폰서 콘텐츠
전통적인 데이터 플랫폼은 테이블 컬 데이터의 구조화 된 쿼리에서 오랫동안 뛰어났습니다. 이 근본적인 관계 기반은 강력합니다. 그러나 다중 모드 데이터 (예 : 이미지, 오디오, 구조화되지 않은 텍스트)의 양이 증가함에 따라 전통적인 외부 기계 학습 파이프 라인에 의존하여 미묘한 의미 론적 질문에 답하는 것은 중요한 병목 현상이되었습니다.
일반적인 전자 상거래 시나리오를 고려하십시오. 역사적으로 이것은 구조화 된 제품 데이터에 SQL을 사용하고, 분석을 위해 별도의 ML 파이프 라인으로 이미지를 보내고, 마지막으로 다른 결과를 결합하려고 시도했습니다. 분석 환경 내에서 기본적으로 통합되지 않고 AI가 본질적으로 데이터 흐름에 볼트로 고정 된 다단계의 시간 소모적 프로세스.
단일 우아한 SQL 문을 사용하여 구조화되지 않은 비주얼 미디어에서 파생 된 통찰력과 구조화 된 데이터를 결합한이 작업을 다루고 있다고 상상해보십시오. 이 도약은 생성 AI를 최신 데이터 플랫폼의 핵심에 직접 통합함으로써 가능합니다. 친숙한 SQL로 정교하고 멀티 모달 분석을 실행할 수있는 새로운 시대를 소개합니다.
생성 AI가 어떻게 기본적으로 데이터 플랫폼을 재구성하고 실무자가 SQL의 다양성과 함께 멀티 모달 통찰력을 제공 할 수 있는지 살펴 보겠습니다.
관계 대수는 생성 AI를 만난다
전통적인 데이터웨어 하우스는 관계형 대수의 기초에서 자신의 힘을 얻습니다. 이는 수학적으로 정의되고 일관된 프레임 워크를 제공하여 구조화 된 테이블 데이터를 쿼리하고 스키마가 잘 정의 된 경우 탁월합니다.
그러나 멀티 모달 데이터에는 관계형 대수가 그 자체로 직접 해석 할 수없는 풍부한 시맨틱 컨텐츠가 포함되어 있습니다. 생성 AI 통합은 시맨틱 브리지 역할을합니다. 이를 통해 멀티 모달 데이터에 포함 된 복잡한 신호를 해석 할 수있는 AI의 용량을 활용하여 인간과 마찬가지로 추론 할 수 있도록하여 전통적인 데이터 유형 및 SQL 기능의 제약 조건을 초월 할 수 있습니다.
이러한 진화를 완전히 이해하기 위해 먼저 이러한 기능을 가능하게하는 건축 구성 요소를 탐색합시다.
생성 AI가 작동합니다
AI 플랫폼에 대한 최신 데이터를 통해 비즈니스는 생성 AI 기능을 핵심에 포함시켜 데이터와 상호 작용할 수 있습니다. 외부 서비스에 대한 ETL 파이프 라인 대신 BigQuery와 같은 기능 AI.GENERATE
그리고 AI.GENERATE_TABLE
사용자가 친숙한 SQL을 사용하여 강력한 대형 언어 모델 (LLM)을 활용할 수 있도록합니다. 이러한 기능은 기존 테이블의 데이터와 사용자 정의 프롬프트와 함께 LLM으로 결합하여 응답을 반환합니다.
구조화되지 않은 텍스트 분석
수천 개의 품목에 수백만 건의 제품 리뷰가 포함 된 테이블이있는 전자 상거래 사업을 고려하십시오. 고객 의견을 이해하기 위해이 책의 수동 분석은 엄청나게 시간이 많이 걸립니다. 대신 AI 기능은 각 검토에서 키 테마를 자동으로 추출하고 간결한 요약을 생성 할 수 있습니다. 이 요약은 잠재 고객에게 빠르고 통찰력있는 개요를 제공 할 수 있습니다.
멀티 모달 분석
이러한 기능은 비 회피 데이터를 넘어 확장됩니다. 최신 LLM은 다중 모드 데이터에서 통찰력을 추출 할 수 있습니다. 이 데이터는 일반적으로 GCS (Google Cloud Storage)와 같은 클라우드 객체 저장에 남아 있습니다. BigQuery는 이러한 객체에 대한 액세스를 단순화합니다 ObjectRef
. ObjectRef
열은 표준 BigQuery 테이블 내에 있으며 분석을 위해 GCS의 객체를 안전하게 참조합니다.
전자 상거래 예를 위해 구조화되지 않은 구조화 및 구조화되지 않은 데이터를 결합 할 수있는 가능성을 고려하십시오.
- 2024 년에 판매 된 모든 전화를 “Bluetooth 페어링 문제”에 대한 빈번한 고객 불만으로 식별하고 PDF (Product User Manual)를 상호 참조하여 문제 해결 단계가 누락되었는지 확인하십시오.
- 대중 교통 관련 손상을 보여주는 고객 제출 사진을 분석하여 서부 지역에 대한 “도착시 손상된”사고와 가장 자주 관련된 운송 업체 목록.
구조화 된 테이블 데이터와 함께 외부 파일 분석에 통찰력이 의존하는 상황을 해결하기 위해 BigQuery는 사용합니다. ObjectRef
. 어떻게 보자 ObjectRef
표준 BigQuery 테이블을 향상시킵니다. 기본 제품 정보가 포함 된 테이블을 고려하십시오.
쉽게 추가 할 수 있습니다 ObjectRef
열이라는 열 manuals
이 예에서는 GCS에 저장된 공식 제품 매뉴얼 PDF를 참조합니다. 이것은 허용합니다 ObjectRef
구조화 된 데이터로 나란히 살기 :
이 통합은 정교한 멀티 모달 분석을 강화합니다. 고객 리뷰 (텍스트) 및 제품 매뉴얼 (PDF)을 사용하여 Q & A 쌍을 생성하는 예를 살펴 보겠습니다.
SQL
SELECT
product_id,
product_name,
question_answer
FROM
AI.GENERATE_TABLE(
MODEL `my_dataset.gemini`,
(SELECT product_id, product_name,
('Use reviews and product manual PDF to generate common question/answers',
customer_reviews,
manuals
) AS prompt,
FROM `my_dataset.reviews_multimodal`
),
STRUCT("question_answer ARRAY" AS output_schema)
);
의 신속한 주장 AI.GENERATE_TABLE
이 쿼리에서는 세 가지 주요 입력을 사용합니다.
- 자주 묻는 질문을 생성하기 위해 모델에 대한 텍스트 지시
- 그만큼
customer_reviews
열 (집계 된 텍스트 해설이있는 문자열) - 그만큼
manuals ObjectRef
제품 매뉴얼 PDF에 직접 연결되는 열
이 함수는 구조화되지 않은 텍스트 열을 사용합니다 그리고 AI 작업을 수행하기 위해 GCS에 저장된 기본 PDF. 출력은 잠재 고객이 제품을 더 잘 이해하는 데 도움이되는 귀중한 Q & A 쌍 세트입니다.
ObjectRef의 유틸리티 확장
우리는 더 많은 것을 추가하여 추가 멀티 모달 자산을 쉽게 통합 할 수 있습니다. ObjectRef
우리 테이블에 열. 전자 상거래 시나리오를 계속하면 A가 추가됩니다 ObjectRef
호출 된 열 product_image
웹 사이트에 표시된 공식 제품 이미지를 나타냅니다.
그리고 그 이후로 ObjectRef
S는 구조 데이터 유형이며 배열로 중첩을 지원합니다. 이것은 하나의 기본 레코드가 여러 비정형 객체와 관련된 시나리오에서 특히 강력합니다. 예를 들어, a customer_images
열은 배열 일 수 있습니다 ObjectRef
s, 각각 GCS에 저장된 다른 고객 지원 제품 이미지를 가리키고 있습니다.
구조화 된 레코드와 다양한 비정형 데이터 객체 (BigQuery 내 및 SQL 사용) 간의 일대일 및 일대일 관계를 유연하게 모델링하는이 기능은 이전에 여러 외부 도구가 필요한 분석 가능성을 열어줍니다.
유형 별 AI 기능
AI.GENERATE
함수는 출력 스키마를 정의하는 데 유연성을 제공하지만 강력하게 입력 된 출력이 필요한 일반적인 분석 작업의 경우 BigQuery는 유형 별 AI 기능을 제공합니다. 이러한 기능은 텍스트를 분석 할 수 있습니다 ObjectRef
LLM을 사용하고 응답을 BigQuery로 직접 구조물로 반환하십시오.
몇 가지 예는 다음과 같습니다.
- ai.generate_bool : 프로세스 입력 (텍스트 또는 objectRefs)과 부울 값을 반환하여 감정 분석 또는 참/거짓 결정에 유용합니다.
- ai.generate_int : 데이터에서 수치 수, 등급 또는 정량화 가능한 정수 기반 속성을 추출하는 데 유용한 정수 값을 반환합니다.
- ai.generate_double : 부동 소수점 번호를 반환하고 점수, 측정 또는 재무 가치를 추출하는 데 유용합니다.
이러한 유형 별 함수의 주요 장점은 출력 데이터 유형의 시행으로 간단한 SQL을 사용한 구조화되지 않은 입력에서 예측 가능한 스칼라 결과 (예 : 부울, 정수, 복식)를 보장합니다.
전자 상거래 예를 바탕으로 배송 또는 포장 문제를 언급하는 제품 리뷰를 신속하게 표시하고 싶다고 상상해보십시오. 우리는 사용할 수 있습니다 AI.GENERATE_BOOL
이 바이너리 분류를 위해 :
SQL
SELECT *
FROM `my_dataset.reviews_table`
AI.GENERATE_BOOL(
prompt => ("The review mentions a shipping or packaging problem", customer_reviews),
connection_id => "us-central1.conn");
쿼리는 배송 또는 포장 문제를 언급하는 행을 기록하고 반환합니다. 우리는 그랬습니다 ~ 아니다 키워드를 지정해야합니다 (예 : “Broken”, “Damaged”) – 각 검토 내 에서이 의미 론적 의미는 LLM에 의해 검토됩니다.
모두 함께 가져 오기 : 통합 된 멀티 모달 쿼리
생성 AI가 데이터 플랫폼 기능을 향상시키는 방법을 살펴 보았습니다. 이제 소개에서 제기 된 전자 상거래 과제를 다시 방문합시다. 역사적으로 이것은 고유 한 파이프 라인이 필요했으며 종종 여러 개인 (데이터 과학자, 데이터 분석가, 데이터 엔지니어)에 걸쳐 있습니다.
통합 AI 기능을 사용하면 우아한 SQL 쿼리가 다음과 같은 질문을 해결할 수 있습니다.
이 통합 쿼리는 데이터 플랫폼 작동 방식에서 중요한 진화를 보여줍니다. 다양한 데이터 유형을 저장하고 검색하는 대신 플랫폼은 친숙한 SQL 인터페이스를 사용하여 구조화되고 구조화되지 않은 데이터를 나란히 분석하여 비즈니스 질문을하고 답변을 반환 할 수있는 활성 환경이됩니다. 이 통합은 이전에 전문화 된 전문 지식과 툴링이 필요한 통찰력을 향한보다 직접적인 경로를 제공합니다.
AI 쿼리 엔진을 사용한 시맨틱 추론 (곧 출시)
기능이 있습니다 AI.GENERATE_TABLE
BigQuery는 Row-Wise AI 처리 (개별 레코드를 풍부하게하거나 새로운 데이터 생성)에 강력합니다. BigQuery는 AIQE (AI Query Engine)와보다 전체적인 의미 론적 추론을 통합하는 것을 목표로합니다.
AIQE의 목표는 데이터 분석가, 심지어 깊은 AI 전문 지식이없는 사람들조차도 전체 데이터 세트에서 복잡한 의미 론적 추론을 수행 할 수있는 권한을 부여하는 것입니다. AIQE는 프롬프트 엔지니어링과 같은 복잡성을 추상화하여이를 달성하고 사용자가 비즈니스 로직에 집중할 수 있도록합니다.
샘플 AIQE 기능에는 다음이 포함될 수 있습니다.
- ai.if: 시맨틱 필터링 용. LLM은 Row의 데이터가 프롬프트에서 자연어 조건과 일치하는지 여부를 평가합니다 (예 : “과열에 대한 우려를 제기하는 제품 검토 반환”).
- ai.join: 자연 언어로 표현 된 의미 론적 유사성 또는 관계를 기반으로 테이블에 합류 – 명시 적으로 주요 평등뿐만 아니라 (예 :“고객 지원 티켓을 제품 지식 기반의 관련 섹션에 연결”).
- ai.score:“Top-K”시나리오에 유용한 의미 론적 조건과 얼마나 잘 일치하는지에 따라 행을 순위 또는 주문하십시오 (예 :“Top 10 Best Customer Support Call을 찾으십시오”).
결론 : 진화하는 데이터 플랫폼
데이터 플랫폼은 지속적인 진화 상태로 남아 있습니다. 구조화 된 관계형 데이터 관리에 중점을 둔 기원에서 이제는 구조화되지 않은 다중 모드 데이터가 제시 한 기회를 수용합니다. AI 기반 SQL 연산자의 직접 통합 및와 ObjectRef
데이터와 상호 작용하는 방식의 근본적인 변화를 나타냅니다.
데이터 관리와 AI 사이의 라인이 계속 수렴함에 따라 데이터웨어 하우스는 엔터프라이즈 데이터의 중앙 허브로 유지됩니다. 한때 이질적인 도구와 광범위한 AI 전문 지식이 필요한 복잡한 멀티 모달 질문을 더 단순하게 해결할 수 있습니다. 보다 유능한 데이터 플랫폼으로 향하는 이러한 진화는 정교한 분석을 계속 민주화하고 광범위한 SQL-Profied 사용자가 깊은 통찰력을 도출 할 수 있도록합니다.
이러한 기능을 탐색하고 BigQuery에서 멀티 모달 데이터로 작업을 시작합니다.
저자 : Jeff Nelson, 개발자 관계 엔지니어, Google Cloud
Post Comment