GenAI 전략에 포괄적인 데이터 현대화가 필요한 이유

이미지 출처: 버나드 마 & 공동 (설명 목적으로만)

단편적인 접근 방식은 작동하지 않습니다. 비즈니스 로직을 남겨둘 수는 없습니다.

모든 경영진은 생성적 AI 전략을 원합니다. 이제 AI를 사용하라는 명령이 내려졌습니다. 그러나 엔지니어링 및 데이터 리더가 빠르게 발견함에 따라 과대 광고 열차가 편리하게 건너뛸 수 있는 거대하고, 화려하지 않으며, 값비싼 전제 조건이 있습니다. 즉, 데이터 인프라가 아직 준비되지 않았습니다.

여러분이 20년 동안 꼼꼼하게 구축한 모놀리식 기업 데이터 웨어하우스(EDW)가 바로 AI 전략을 인질로 잡고 있는 것입니다.

이미지 출처: 블룸버그

가혹한 현실은 대부분의 레거시 데이터 플랫폼이 현대 AI/ML 워크로드의 요구 사항과 기술적으로 호환되지 않는다는 것입니다. 최신 데이터 레이크하우스로 마이그레이션하기 위한 비즈니스 사례는 더 이상 “클라우드 혁신”에 관한 것이 아닙니다. 이는 AI 시대에 생존을 위한 타협할 수 없는 전제 조건이 되었습니다.

그러나 그러한 깨달음조차도 가장 큰 함정, 즉 단편적인 마이그레이션으로 이어집니다.

AI 대 레거시 데이터 웨어하우스 “벽돌벽”

기존 EDW(Teradata, Netezza 또는 온프레미스 SQL Server 등)는 2005년 엔지니어링의 경이로움이었습니다. 과거에 대한 구조화된 질문에 답하기 위해 설계되었습니다. “지난 분기 매출은 얼마입니까?”

제너레이티브 AI(Generative AI)는 이용 가능한 모든 정보를 기반으로 미래에 대해 예측적이고 창의적이며 복잡한 판단을 내리도록 설계되었습니다. 이는 근본적으로 다른 작업이며 기존 시스템에서는 기술적으로 이를 수행할 수 없습니다.

이유는 다음과 같습니다.

비정형 데이터로 GenAI 지원: GenAI 모델은 인간의 언어, 이미지 및 오디오에 능숙합니다. EDW는 행과 열에 능숙합니다. AI의 기반이 되는 대량의 비정형 및 반정형 데이터(예: 문서, 통화 기록, 지원 티켓)를 저장, 처리 또는 쿼리하도록 설계되지 않았습니다.
AI 언어(벡터 임베딩): 데이터를 “이해”하기 위해 AI 모델은 개념의 복잡한 수학적 표현인 벡터 임베딩을 사용합니다. “유사한” 개념(즉, RAG, 검색 증강 생성의 핵심)을 검색하려면 벡터 데이터베이스가 필요합니다. 이것은 단순히 전통적인 EDW에 대한 외계인 기술입니다.
실시간 처리와 일괄 보고: EDW는 아마도 일괄 처리 창에서 밤새 업데이트될 것입니다. AI 애플리케이션은 이제 정보를 처리하고 답변을 제공해야 합니다. 최신 데이터 플랫폼은 AI에 필요한 실시간 스트리밍 및 지연 시간이 짧은 쿼리를 위해 설계되었습니다.

그럼 해결방법은 쉽죠? 최신 플랫폼으로 마이그레이션하면 됩니다. 하지만 그렇지 않습니다.

“범위 누락” 오류: 단편적 마이그레이션이 실패하는 이유

조직에서 저지르는 가장 흔하고 치명적인 실수는 현대화를 단순한 “데이터 덤프”로 간주하는 것입니다. 그들은 데이터베이스 테이블을 새로운 플랫폼으로 “리프트 앤 시프트”하고 스위치만 켜면 충분하다고 가정합니다.

이 접근 방식은 100% 실패합니다.

왜? 데이터 자체는 이야기의 절반에 불과하기 때문입니다. 기업의 “두뇌”인 실제 가치는 표에 나와 있지 않습니다. 이는 이를 둘러싼 비즈니스 논리와 조정의 복잡한 웹에 내장되어 있습니다.

이미지 출처: 덩샹 ~에 언스플래쉬

우리는 다음과 같은 분야에 포함된 수십 년간 축적된 지식에 대해 이야기하고 있습니다.

복잡한 ETL(추출, 변환, 로드) 작업
수천 개의 저장 프로시저
데이터 유효성 검사 규칙
복잡한 오케스트레이션 스크립트
액세스 제어 및 계보

이 논리는 원시 데이터가 신뢰할 수 있는 정보로 변환되는 방식을 나타냅니다. 고객 생애 가치를 계산하는 공식, 사기 거래 표시 규칙, 분기 말 장부를 마감하는 프로세스입니다.

“매출 데이터를 먼저 이동하자”라는 단편적인 접근 방식을 취하면 이 논리가 깨집니다. 종속성을 끊습니다. 단일 정보 소스를 잃어버리고 작동하는 하나의 시스템이 아닌 두 개의 손상된 시스템을 갖게 됩니다. 비즈니스 연속성이 중단됩니다.

“한 번에 모두” 필수 사항: 데이터 및 논리 마이그레이션

앞으로 유일하게 실행 가능한 경로는 포괄적인 접근 방식입니다. 데이터뿐만 아니라 전체 시스템을 이동해야 합니다. 이는 캡처 및 마이그레이션을 의미합니다. 컨텍스트를 제공하는 모든 데이터, 메타데이터 및 비즈니스 로직.

새로운 환경에서 복잡한 오케스트레이션을 포함한 전체 시스템을 성공적으로 복제하면 세 가지 중요한 사항을 달성할 수 있습니다.

일관성을 보장합니다. 귀하의 보고서는 여전히 정체 상태이며 귀하의 수치는 여전히 정확합니다. 단일 정보 소스를 유지 관리합니다.
비즈니스 연속성을 유지합니다. 사업은 멈추지 않습니다. 회사를 운영하는 규칙은 유지되고 작동합니다.
AI를 위해 데이터를 상황화합니다. 이것이 가장 중요한 부분입니다. 비즈니스 로직을 마이그레이션하면 새로운 AI 모델에 데이터에 대한 “사용자 매뉴얼”이 제공됩니다. 이제 20년간의 제도적 지식을 다시 추측하는 대신 “좋은 고객” 또는 “위험한 자산”을 정의하는 방법을 이해하고 입증된 논리를 바탕으로 인텔리전스를 구축할 수 있습니다.

데이터 현대화의 진화하는 환경

물론 이 “한 번에” 마이그레이션은 엄청나게 복잡합니다. 수십 년 동안 유일한 선택은 회사의 컨설턴트 군대를 고용하여 수년(수백만 시간)을 들여 코드를 직접 다시 작성하는 무차별적인 수동 노력이었습니다. 이 접근 방식은 느리고 비용이 많이 들고 오류가 발생하기 쉽습니다.

\
이미지 출처: 빈마일

시장은 프로세스를 가속화하는 도구로 대응했습니다. 통합 플랫폼은 서로 다른 시스템을 연결하는 데 도움이 되었습니다. 동시에 저장 프로시저 번역과 같은 문제의 일부를 자동화하기 위해 회사에서 전문적인 코드 변환 도구가 등장했습니다.

이러한 솔루션이 업계를 발전시키는 동안에도 높은 충실도로 전체 시스템의 진정한 엔드투엔드 자동화를 달성해야 한다는 끊임없는 과제가 남아 있습니다. 단편화된 도구를 관리하려면 여전히 대규모 통합 노력이 필요하며, 수동 작업이 많은 서비스는 AI의 급속한 발전을 따라잡기에는 너무 느립니다.

이러한 격차는 새로운 플랫폼이 노력을 집중하는 곳입니다. 전체 대상 시스템을 재생성하기 위해 AI 기반 엔진을 사용하여 이 문제를 해결하는 플랫폼에서 볼 수 있는 새로운 접근 방식입니다. 목표는 메타데이터 및 데이터뿐만 아니라 복잡한 ETL 작업 및 워크플로우도 자동화하여 단편화된 포인트 솔루션을 뛰어넘는 것입니다. 이 고정밀 엔드투엔드 자동화를 통해 전체 비즈니스 로직을 마이그레이션하여 시스템 일관성을 보장하고 최신 AI 워크로드를 위한 중요하고 상황에 맞는 기반을 제공할 수 있습니다.