Postgres와 Lakehouse는 하나의 시스템이되었습니다. 다음에 오는 것이 있습니다.

Postgres와 Lakehouse는 하나의 시스템이되었습니다. 다음에 오는 것이 있습니다.

현대 데이터 시스템의 아키텍처는 근본적인 변화를 겪고 있습니다.

개발자에게 오늘날 데이터 시스템을 구축하는 방법에 대해 물어보십시오. 응용 프로그램의 포스트 그레, 분석 및 데이터 과학을위한 호수 인 응용 프로그램의 대답이 점점 더 많이 보입니다.

트랜잭션 워크로드에 오랫동안 선호되는 Postgres는 범용 운영 데이터베이스로 발전했습니다. 고객 거래 및 CRUD 앱에서 실시간 대시 보드 및 AI 지원 제품 기능에 이르기까지 신뢰할 수 있고 유연하며 깊이 확장 가능합니다. 생태계는 실시간 분석 (TimesCaledB), 지리 공간 데이터 (PostGIS), 벡터 및 전체 텍스트 검색 (PGVECTOR 및 PGVECTORSCALE) 등을 지원하기 위해 성장했습니다.

동시에, Open Lakehouse Technologies의 상승은 조직이 규모로 데이터를 관리하고 분석하는 방법을 재정의했습니다. 분리 된 스토리지, 빙산, 구조화 된 데이터 카탈로그 및 합성 가능한 쿼리 엔진과 같은 오픈 테이블 형식으로 인해 정확성 및 제어로 페타 바이트 규모 데이터를 분석 할 수있었습니다. 이 아키텍처는 거버넌스를 제공하고 공급 업체 잠금을 피하며 여전히 데이터 팀에게 도구 선택에 유연성을 제공 할 수 있습니다.

눈에 띄는 것은 이러한 기술의 성공 일뿐 만 아니라 현재 얼마나 자주 배치되고 있는지. 조직은 운영 워크로드 (데이터베이스로 구동)와 비 운영 워크로드 (Lakehouses에 의해 구동)를 모두 지원해야하며, 종종 사람, 기계, 디지털 시스템 또는 에이전트와 같은 동일한 소스의 데이터를 사용합니다. 그러나 이러한 시스템은 여전히 ​​다른 팀이 소유하는 종종 고립 된 상태로 처리되며,이를 원활하게 함께 작동시키는 데 너무 많은 마찰이 있습니다.

우리는 마찰이 존재하지 않아야한다고 생각합니다. 실제로, 우리는 새롭고 일관된 아키텍처가 떠오르고 있다고 생각합니다. 포스트 그레와 호수 하우스를 별도의 세계가 아니라 단일 모듈 식 시스템의 뚜렷한 층으로 취급하는 건축은 전체 운영 및 분석 요구를 충족하도록 설계되었습니다.

OLTP 대 OLAP 이분법의 한계

데이터베이스에 대한 오래된 생각은 간단했습니다. 거래 용 OLTP, 분석 용 OLAP. Postgres를 사용하여 앱에 전원을 공급하고 Nightly ETL 작업을 내부 보고서 및 대시 보드를 위해 데이터웨어 하우스로 보냈습니다. 이 전통적인 차이는 응용 프로그램이 더 단순 해졌을 때 우리에게 잘 어울 렸으며 내부보고는 훨씬 느린 케이던스로 살 수 있습니다. 그러나 그것은 더 이상 그렇지 않습니다.

최신 응용 프로그램은 데이터가 무겁고 고객을 대면하며 디자인 별 실시간입니다. 그들은 거래와 분석 사이의 선을 흐리게합니다.

  • 금융 앱은 고객 포트폴리오에 밀리 초 액세스가 필요한 거래 엔진을 실행하면서 실시간 위험 보고서와 내부 대시 보드를 동시에 공급합니다.
  • SaaS 앱은 클릭을 저장하는 것이 아니라 사용 메트릭을 계산하고, 경고를 유발하며, 개인화 된 모델을 제공하는 것입니다.
  • 산업 모니터링 시스템은 시간당 수천만 개의 센서 판독 값을 섭취하고, 이상 탐지 및 경고 논리를 주도하며, 장기 분석 및 AI 모델 교육을위한 수년간의 원격 측정을 보관할 수 있습니다.

이러한 사용 사례는 이상치가 아닙니다. 빠르게 표준이되고 있습니다.

우리는 더 유용한 분할을 점점 더 많이보고 있습니다.

그러나 이러한 유형의 시스템에 대한 소유권이 분할 되더라도, 제품 전원을 공급하는 운영 체제를 담당하는 제품 엔지니어링 팀과 Lakehouse 시스템을 조직 서비스로 관리하는 데이터 팀은 여전히 ​​서로 대화해야합니다. 그들은 동일한 데이터를 작업하고 종종 기본 스키마를 공유해야합니다. 그들이 통합하고 동기화를 유지할수록 시스템이 더 탄력적이고 능력이 있습니다.

운영 메달 아키텍처

견인력을 얻는 한 가지 패턴은 우리가 부르는 것입니다. 운영 메달 아키텍처. 데이터 엔지니어링 세계에서 대중화 된 Medallion 모델에서 영감을 얻은이 패턴은 내부 분석뿐만 아니라 실시간, 사용자 직면 시스템에도 전원을 공급하기 위해 동메달,은 및 금 레이어를 통합합니다.

다음은 다음과 같습니다.

  • 청동 레이어 : 원시 데이터는 AWS S3 또는 유사한 저렴한 바닥이없는 스토리지 시스템의 파크 또는 빙산 파일에 남아 있습니다. 이 데이터는 일반적으로 불변, 부록 전용이며 AWS Athena, DuckDB, Trino, Clickhouse 또는 Polars와 같은 쿼리 엔진 또는 Postgres와 같은 운영 데이터베이스에서 직접 쿼리 할 수 ​​있습니다.
  • 작동 실버 레이어 : 청소, 필터링, 검증 및 중복 제거 된 데이터는 Postgres로 작성하여 실시간 분석, 대시 보드 또는 사용자 대면 제품의 응용 프로그램 논리에 전원을 공급합니다.
  • 운영 금 레이어 : Silver Data에 대한 사전 응집 된 데이터 (Postgres의 구체화 된 견해 또는 TimescaledB의 연속 집계)는 낮은 지연이있는 높은 일환 제품 경험을 제공합니다. 이들은 일반적으로은 층과 금 층 간의 일관성을 보장하기 위해 데이터베이스 내에서 유지됩니다.

결정적으로, 각 계층은 쿼리 가능 하며이 데이터 이동은 양방향입니다. S3에서 RAW 또는 변환 된 데이터를 직접 우편으로 가져올 수 있습니다 (단단히 통합 된 역방향 ETL과 유사). 빙산에서 포스트 그레스 테이블로 골재를 롤업 할 수 있습니다 (우편의 빙산 파일에 대한 일회성 또는 스탠딩 쿼리). 데이터베이스에서 Lakehouse로 전체 스키마 또는 단일 테이블을 지속적으로 동기화 할 수 있습니다.

Bronze (또는 변환 된) 데이터를 S3의 Lakehouse Storage Layer에서 데이터베이스로 읽을 수 있듯이 데이터베이스의은 및 금은 이러한 Lakehouse 스토리지 형식으로 작성 될 수 있습니다. 이는 두 시스템에서 동일한 파이프 라인을 다시 구현할 필요가 없으며, 이는 복잡성을 추가하고 일관성을 추가합니다.

새로운 데이터가 필요한 응용 분야에서 관찰 한 일반적인 패턴 중 하나는 Kafka 또는 Kinesis와 같은 업스트림 스트리밍 시스템에서 쓰는 것입니다. 동시에 S3 (행, 수정되지 않은 청동 데이터) 및 Postgres (데이터베이스 스키마 및 데이터 검증을위한 제약 조건) 모두에게. 그런 다음 데이터베이스의 이러한 은색 테이블 및 후속 금 골재는 S3로 다시 내보내므로 데이터 팀은 이제 고객에게 제공된 “Ground Truth 데이터”에 액세스 할 수 있습니다.

이제 각 시스템은 우려의 분리를 유지합니다. 운영 데이터베이스는 사용자와 비우호적 인 쿼리 모두에 잠겨 실행을 실행할 수있는 반면, 데이터는 Open Lakehouse의 일부로 ORG에 필요한 곳에서 사용할 수 있습니다.

지금 왜? 기술력이 변화를 이끌어냅니다

여러 개발로 인해 운영 데이터베이스 및 호수에서 이로 인해 사일링되는 것부터 통합으로의 전환이 전원이 켜지고 있습니다.

첫째, 빙산은 스키마 진화, 산 트랜잭션 및 효율적인 압축을 지원하는 안정적이고 유연한 테이블 형식으로 성숙했습니다. 메타 데이터를 추적하고 스택을 가로 질러 거버넌스를 시행하는 카탈로그 레이어를 사용하여 여러 컴퓨팅 엔진을 동일한 데이터 세트에서 읽고 쓸 수 있습니다. 데이터베이스와 마찬가지로 핵심에 카탈로그가 있었으므로 이제 레이크 하우스를 수행하십시오.

둘째, Postgres는 플랫폼으로 계속 발전했습니다. 원주민 저장, 시계열 데이터 및 벡터 및 하이브리드 검색 (수년간 타임 스케일에서 구축 한 내용)에 대한 확장 기능을 갖춘 Postgres는 이제 실시간 분석 및 에이전트 워크 플로를 직접 통합하는 많은 제품을 제공합니다. Postgres 내에서 S3 및 Iceberg 데이터를 직접 쿼리하기위한 새로운 지원으로 S3 호스팅 데이터를 직접 통합하는 것이 점점 더 가능해지고 있습니다. 따라서 Postgres는 더 이상 거래 데이터에 대한 것이 아닙니다-일방 통행 ETL/CDC에서 Lakehouse- 이제 트랜잭션 및 분석 데이터를 모두 통합 한 제품의 서빙 계층 역할을합니다.. 이것은 미리 컴퓨터 데이터를위한 데이터 캐싱 계층 일뿐 만 아니라 추가 집계, 강화 또는 쿼리 시간에 조인을위한 본격적인 SQL 데이터베이스입니다.

셋째, 개발자는 합성 가능성을 기대합니다. 일부 조직은 레거시 모 놀리 식 데이터 플랫폼에 갇힐 수 있지만 대부분의 개발자와 데이터 과학자는 자신의 스택을 구성하는 유연성을 원하며 애플리케이션의 요구를 반영하는 방법으로 친숙한 도구를 통합합니다. 개방형 형식과 분리 된 스토리지로의 전환은이 사고 방식에 적합합니다. 특히 규제 된 산업 또는 데이터 주권이 중요한 곳에서 통제에 대한 욕구도 마찬가지입니다.

다르게 말하면 : 시장은 모듈 식, 개방적이고 개발자 친화적 인 아키텍처로 이동하고 있습니다.

다음에 오는 것

우리는 데이터 인프라의 미래가 운영 및 분석 계층을보다 깊이 통합하는 시스템 (우편물과 Lakehouse를 동일한 코인의 양면으로 처리하는 시스템에 의해 형성 될 것이라고 생각합니다.

이것은 다른 모 놀리 식을 통해서는 일어나지 않을 것입니다. 신중한 인터페이스 (증분 동기화, 공유 카탈로그, 통합 쿼리 표면)와 싸우지 않고 이질성을 수용하는 건축 철학에서 나옵니다.

우리는이 공간에서 새로운 일을하고 있습니다. Postgres 및 Iceberg의 강점을 기반으로하는 무언가는 기존 Lakehouse 시스템과 밀접하게 통합되며 운영 및 분석 충실도를 갖춘 전체 스택 데이터 시스템을 쉽게 구축 할 수 있습니다.

이는 ETL을 사용하여 레거시 시스템에서 새로운 시스템으로 데이터를 이동하는 것이 아닙니다. 이는 운영 및 비 수술 사용 사례에 서비스를 제공하는 일관된 최신 데이터 아키텍처를 구축하는 것입니다.

계속 지켜봐주십시오.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다