분석의 데이터 관찰 가능성: 도구, 기술 및 중요한 이유

작성자별 이미지

# 소개

“데이터는 현대 조직의 중추입니다.”라는 진부한 말을 들어보셨을 것입니다. 이는 사실이지만 해당 백본을 신뢰할 수 있는 경우에만 가능합니다. 반드시 데이터 자체의 상태를 말하는 것이 아니라 데이터를 생산하고 이동하는 시스템을 말하는 것입니다.

대시보드가 중단되고, 파이프라인이 실패하고, 지표가 무작위로 변경된다면 문제는 데이터 품질 부족이 아니라 관찰 가능성 부족입니다.

# 데이터 관찰 가능성이란 무엇입니까?

데이터 관측 가능성은 데이터 시스템의 상태와 신뢰성을 모니터링하는 프로세스입니다.

이 프로세스는 데이터 팀이 의사 결정에 영향을 미치기 전에 수집부터 저장, 분석까지 분석 스택 전반에서 문제를 감지, 진단, 방지하는 데 도움이 됩니다.

데이터 관찰성을 통해 데이터와 시스템의 다음 측면을 모니터링합니다.

작성자별 이미지

데이터 최신 상태: 예상 업데이트 일정과 비교하여 데이터가 얼마나 최신 상태인지 추적합니다. 예: 일일 판매 테이블이 예정대로 오전 7시까지 업데이트되지 않은 경우 관측 가능성 도구는 비즈니스 사용자가 판매 보고서를 사용하기 전에 경고를 발생시킵니다.
데이터 볼륨: 각 단계에서 수집되거나 처리되는 데이터의 양을 측정합니다. 예: 밤새 거래 기록이 38% 감소했다면 수집 작업이 중단되었음을 의미할 수 있습니다.
데이터 스키마: 열 이름, 데이터 유형 또는 테이블 구조의 변경 사항을 감지합니다. 예: 새 데이터 생산자가 사전 통지 없이 업데이트된 스키마를 프로덕션에 푸시하는 경우.
데이터 분포: 데이터의 통계적 형태, 즉 정상적으로 보이는지 확인합니다. 예: 프리미엄 고객의 비율이 하룻밤 사이에 29%에서 3%로 떨어졌습니다. 관찰 가능성은 이를 이상으로 감지하고 오해의 소지가 있는 이탈률 분석을 방지합니다.
데이터 계보: 수집부터 변환, 최종 대시보드까지 생태계 전반의 데이터 흐름을 시각화합니다. 예: Snowflake의 소스 테이블이 실패하고 계보 보기에 Looker 대시보드 3개와 기계 학습 모델 2개가 이에 의존하는 것으로 표시됩니다.

# 데이터 관측성이 중요한 이유

분석에서 데이터 관찰 가능성의 이점은 다음과 같습니다.

작성자별 이미지

앞서 언급한 각 데이터 관찰 가능성 차원 또는 기둥은 데이터 관찰 가능성의 전반적인 이점을 달성하는 데 특정한 역할을 합니다.

잘못된 결정 감소: 데이터 관찰 가능성을 통해 분석이 현재 비즈니스 조건을 반영하도록 보장합니다(데이터 최신성 차원) 그리고 통계에 사용되기 전에 숫자와 데이터 패턴이 의미가 있는지 확인합니다(데이터 분포 차원) 결과적으로 잘못될 수 있는 결정이 줄어듭니다.
더 빠른 문제 감지: 조기 경고 시스템에서 데이터 로드가 불완전하거나 중복되었음을 경고하는 경우(데이터 볼륨 차원) 및/또는 파이프라인을 자동으로 중단시키는 구조적 변경이 있는 경우, 비즈니스 사용자가 이를 인지하기도 전에 이상 현상이 포착됩니다.
향상된 데이터 팀 생산성: 데이터 계보 차원은 시스템 전반에 걸쳐 데이터가 흐르는 방식을 매핑하므로 오류가 시작된 위치와 영향을 받는 자산을 쉽게 추적할 수 있습니다. 데이터 팀은 소방보다는 개발에 중점을 둡니다.
더 나은 이해관계자 신뢰: 이는 데이터 가시성 이점의 최종 보스입니다. 이해관계자의 신뢰는 이전 세 가지 이점의 궁극적인 결과입니다. 이해관계자가 데이터가 최신이고, 완전하고, 안정적이고, 정확하고, 모두가 그 출처를 알고 있다는 데이터 팀을 신뢰할 수 있다면 분석에 대한 자신감은 자연스럽게 따라옵니다.

# 데이터 관찰 수명주기 및 기술

앞서 언급했듯이 데이터 관찰 가능성은 프로세스입니다. 지속적인 수명주기는 다음 단계로 구성됩니다.

작성자별 이미지

// 1. 모니터링 및 탐지 단계

목표: 데이터의 표류, 파손 또는 이탈 여부를 실시간으로 확인하는 신뢰할 수 있는 조기 경고 시스템.

여기서 무슨 일이 일어나는지:

작성자별 이미지

자동화된 모니터링: 관찰 가능성 도구는 다섯 가지 기본 요소 모두를 통해 데이터 관찰 가능성을 자동으로 모니터링합니다.
이상 탐지: 기계 학습은 데이터의 통계적 이상(예: 예상치 못한 행 수 감소)을 감지하는 데 사용됩니다.
경고 시스템: 위반이 발생할 때마다 시스템은 다음에게 경고를 보냅니다. 느슨하게, 호출기 의무또는 이메일
메타데이터 및 지표 추적: 시스템은 또한 작업 기간, 성공률, 마지막 업데이트 시간과 같은 정보를 추적하여 “정상적인 동작”이 무엇을 의미하는지 이해합니다.

// 모니터링 및 탐지 기술

다음은 이 단계에서 사용되는 일반적인 기술에 대한 개요입니다.

분석의 데이터 관찰성

// 2. 진단 및 이해단계

목표: 문제가 시작된 위치와 영향을 받은 시스템을 이해합니다. 이렇게 하면 복구가 빨라질 수 있으며, 여러 문제가 있는 경우 영향의 심각도에 따라 우선순위를 정할 수 있습니다.

여기서 무슨 일이 일어나는지:

작성자별 이미지

데이터 계보 분석: 관찰 가능성 도구는 원시 소스의 데이터를 최종 대시보드까지 시각화하여 문제가 발생한 위치를 더 쉽게 찾을 수 있도록 해줍니다.
메타데이터 상관관계: 여기에서는 문제와 해당 위치를 정확히 찾아내기 위해 메타데이터도 사용됩니다.
영향 평가: 어떤 영향을 받나요? 도구는 문제 위치의 다운스트림에 있고 영향을 받은 데이터에 의존하는 자산(예: 대시보드 또는 모델)을 식별합니다.
근본 원인 조사: 계보와 메타데이터를 사용하여 문제의 근본 원인을 파악합니다.

// 진단 및 이해 기법

다음은 이 단계에서 사용되는 기술의 개요입니다.

분석의 데이터 관찰성

// 3. 예방 및 개선 단계

목표: 표준을 수립하고, 시행을 자동화하고, 규정 준수를 모니터링하여 무엇이 문제인지 학습하고 모든 사고에 대해 데이터 시스템의 복원력을 강화합니다.

여기서 무슨 일이 일어나는지:

작성자별 이미지

데이터 계약: 생산자와 소비자 간의 합의를 통해 허용 가능한 스키마와 품질 표준이 정의되므로 예고 없이 데이터가 변경되지 않습니다.
테스트 및 검증: 자동화된 테스트(예: DBT 테스트 또는 큰 기대) 라이브로 전환하기 전에 새 데이터가 정의된 임계값을 충족하는지 확인하세요. 데이터 분석 및 SQL 디버깅 기술을 강화하는 팀의 경우 다음과 같은 플랫폼이 필요합니다. 스트라타스크래치 실무자가 데이터 품질 문제를 식별하고 예방하는 데 필요한 분석적 엄격성을 개발하는 데 도움이 될 수 있습니다.
슬램 & 슬램 추적: 팀은 측정 가능한 신뢰성 목표(서비스 수준 계약 및 서비스 수준 목표)를 정의하고 모니터링합니다(예: 파이프라인의 99%가 제 시간에 완료됨).
사고 사후 조사: 각 문제를 검토하여 전반적인 모니터링 규칙과 관찰 가능성을 개선하는 데 도움이 됩니다.
거버넌스 및 버전 관리: 변경 사항이 추적되고 문서가 생성되며 소유권이 할당됩니다.

// 예방 및 개선 기법

다음은 기술에 대한 개요입니다.

분석의 데이터 관찰성

# 데이터 관찰 도구

이제 데이터 관측성이 무엇인지, 어떻게 작동하는지 이해했으므로 이를 구현하는 데 사용할 도구를 소개할 차례입니다.

가장 일반적으로 사용되는 도구는 다음과 같습니다.

작성자별 이미지

이러한 각 도구를 더 자세히 살펴보겠습니다.

// 1. 몬테카를로

몬테카를로 이는 업계 표준이며 5개 기둥 모델을 공식화한 최초의 제품입니다. 파이프라인 전체의 데이터 상태에 대한 완전한 가시성을 제공합니다.

주요 강점:

모든 데이터 관측성 핵심 요소를 다룹니다.
이상 현상 및 스키마 변경이 자동으로 이루어집니다. 즉, 수동 규칙 설정이 필요하지 않습니다.
상세한 데이터 계보 매핑 및 영향 분석

제한사항:

대규모 배포용으로 설계되었으므로 소규모 팀에는 적합하지 않습니다.
엔터프라이즈 가격

// 2. 데이터독

데이터독 서버, 애플리케이션, 인프라를 모니터링하는 도구로 시작되었습니다. 이제 서버, 애플리케이션, 파이프라인 전반에 걸쳐 통합된 관찰성을 제공합니다.

주요 강점:

데이터 문제를 인프라 지표(CPU, 대기 시간, 메모리)와 연관시킵니다.
실시간 대시보드 및 알림
예를 들어 다음과 통합됩니다. 아파치 에어플로우, 아파치 스파크, 아파치 카프카그리고 대부분의 클라우드 플랫폼

제한사항:

심층적인 데이터 품질 검사보다는 운영 상태에 더 중점을 둡니다.
특수 도구에서 발견되는 고급 이상 탐지 또는 스키마 검증이 부족합니다.

// 3. 눈다랑어

눈다랑어 기계 학습 및 통계 기준을 통해 데이터 품질 모니터링을 자동화합니다.

주요 강점:

신선도, 양, 분포에 대한 수백 개의 지표를 자동으로 생성합니다.
사용자가 데이터 SLA/SLO를 시각적으로 설정하고 모니터링할 수 있습니다.
최소한의 엔지니어링 오버헤드로 간편한 설정

제한사항:

심층 계보 시각화 또는 시스템 수준 모니터링에 덜 집중함
Monte Carlo에 비해 근본 원인 진단을 위한 더 작은 기능 세트

// 4. 소다

소다 데이터베이스 및 데이터 웨어하우스에 직접 연결하여 데이터 품질을 실시간으로 테스트하고 모니터링하는 오픈 소스 도구입니다.

주요 강점:

CI/CD 워크플로우에 통합되는 SQL 기반 테스트로 개발자 친화적
소규모 팀이 사용할 수 있는 오픈 소스 버전
강력한 협업 및 거버넌스 기능

제한사항:

복잡한 텍스트 범위에는 수동 설정이 필요합니다.
제한된 자동화 기능

// 5. 가속 데이터

가속 데이터 데이터 품질, 성능, 비용 확인을 결합한 도구입니다.

주요 강점:

데이터 안정성, 파이프라인 성능, 클라우드 비용 지표를 함께 모니터링합니다.
하이브리드 및 멀티 클라우드 환경 관리
Spark와 쉽게 통합됩니다. 하둡최신 데이터 웨어하우스

제한사항:

기업 중심의 복잡한 설정
열 수준 데이터 품질이나 이상 감지에 덜 집중함

// 6. 비정상

변칙적 최소한의 구성이 필요한 자동화된 이상 탐지에 초점을 맞춘 AI 기반 플랫폼입니다.

주요 강점:

기록 데이터에서 예상되는 동작을 자동으로 학습하며 규칙이 필요하지 않습니다.
스키마 변경 및 값 분포를 모니터링하는 데 탁월합니다.
규모에 따라 미묘하고 명백하지 않은 이상 현상을 감지합니다.

제한사항:

고급 사용 사례를 위한 제한된 사용자 정의 및 수동 규칙 생성
더 적은 수의 진단 또는 거버넌스 도구를 사용하여 탐지에 중점을 둡니다.

# 결론

데이터 관찰 가능성은 분석을 신뢰할 수 있게 만드는 필수 프로세스입니다. 이 프로세스는 신선도, 볼륨, 스키마, 배포 및 데이터 계보라는 5가지 요소를 기반으로 구축되었습니다.

이를 철저히 구현하면 데이터 파이프라인의 문제를 방지하고 더 빠르게 진단할 수 있으므로 조직에서 잘못된 결정을 내리는 데 도움이 됩니다. 이를 통해 데이터 팀의 효율성이 향상되고 통찰력의 신뢰성이 향상됩니다.

네이트 로시디 데이터 과학자이자 제품 전략 분야의 전문가입니다. 그는 또한 분석을 가르치는 부교수이기도 하며 데이터 과학자가 상위 기업의 실제 인터뷰 질문을 사용하여 인터뷰를 준비하는 데 도움이 되는 플랫폼인 StrataScratch의 창립자이기도 합니다. Nate는 취업 시장의 최신 동향에 대해 글을 쓰고, 인터뷰 조언을 제공하고, 데이터 과학 프로젝트를 공유하고, SQL의 모든 것을 다룹니다.

출처 참조