Doris + Hudi가 불가능을 일상으로 바꾸는 방법
빅 데이터의 세계에는 다음과 같은 전설이 있습니다. 데이터 과학자는 쿼리 성능에 대해 끊임없이 걱정하고 매일 밤 SQL을 최적화하기 위해 늦게까지 일하고 Doris와 Hudi의 “완벽한 일치”를 갑자기 발견하고 즉시 “Supersonic”모드로 시작하여 보스조차도 너무 빨리 쿼리 속도로 시작했습니다.
오늘날,이 전설은 데이터 커뮤니티에서 널리 퍼져 있습니다. 많은 데이터 엔지니어들은 농담으로 처리 데이터가 카누에서 강을 건너는 것과 같은 것이 느리고 위험하다고 말합니다. 이제 Doris + Hudi의 “거대한 선박”을 통해 그들은 매끄럽게 항해 할뿐만 아니라 시간을 통해 우아하게 여행하여 흥미 진진한 역사적 데이터를 볼 수 있습니다.
이 “데이터 거대 선박”이 파도를 어떻게 항해하는지 알고 싶습니까? 이 기사를 따라 데이터의 “꿈 팀”인 Doris와 Hudi의 놀라운 이야기를 밝혀냅니다.
Doris와 Hudi의 완벽한 통합을 탐구합니다
“서둘러 폐기물을 만든다”라는 말을 들었습니까? 빅 데이터 영역에서는 더 사실이 아닙니다. PB 수준 데이터를 빠르고 정확하게 분석하려면 데이터베이스에만 의존하는 것만으로는 더 이상 충분하지 않습니다. 무술 마스터가 “내부 및 외부 기술을 모두 배양”해야하는 것처럼, 현대 데이터 아키텍처에는 데이터 호수와 데이터웨어 하우스의 완벽한 조합이 필요합니다.
Apache Doris와 Apache Hudi의 조합은 무술 듀오의 “더블 검”과 같습니다. 하나는 고성능 쿼리에 중점을두고 다른 하나는 실시간 데이터 관리에서 탁월합니다. 그들은 함께 빅 데이터 분석의 규칙을 다시 작성하고 있습니다.
스마트 쿼리 최적화
당신이 사서라고 상상해보십시오. 누군가 책을 찾고 있다면 첫 번째 선반에서 마지막으로 모든 선반을 검색 하시겠습니까? 물론. 인덱스 카드를보고 해당 선반을 직접 찾을 수 있습니다. Doris는 Hudi 데이터를 읽을 때도 마찬가지입니다.
새로운 책을 깔끔하게 정렬 한 COP (Copy-on-Write) 테이블의 경우 Doris는 기본 Parquet Reader를 직접 사용하여 “1 단계 접근”을 달성합니다. Doris는 업데이트 된 레코드가있는 책과 같은 Mor (Merge-on-Read) 테이블의 경우 그에 따라 접근 방식을 조정합니다.
실제 데이터 볼륨이 결핵 수준에 도달 한 전자 상거래 고객의 주문 분석 시스템을 살펴 보겠습니다. Doris + Hudi 솔루션을 채택한 후 쿼리의 90% 이상이 “Lightning-Fast”응답, 즉 밀리 초 수준의 대기 시간을 달성했습니다. 비밀은 Doris의 스마트 데이터 액세스 전략에 있습니다.
-- See how fast this query is
SELECT * FROM customer_mor WHERE c_custkey = 32;
설명 실행 계획은 다음과 같습니다.
# hudiNativeReadSplits indicates how many
# split files are read using the parquet native reader
hudiNativeReadSplits=66/101
이는 101 개의 데이터 분할 중 66 개가 고속 네이티브 리더를 사용하여 읽었 음을 의미합니다. 그것은 66 권의 책 중 1 권에서 단 1 권의 수정을 찾는 것과 같습니다. 자연스럽게 “Soars”
속도를 넘어 우아한 진화
Hudi에 대한 Doris의 지원은 단순한 속도가 아닙니다. 다양한 형태로 데이터를 제시 할 수있는 다목적 “데이터 아티스트”와 비슷합니다.
시간 여행
공상 과학 영화에서 시간 여행을 기억하십니까? Doris + Hudi의 세계에서 이것은 허구가 아닙니다. 모든 데이터 변경은 “시간 표시”가 남아 데이터 상태를 볼 수 있도록 모든 시점으로 돌아갈 수 있습니다.
재무 사용자 Xiao Zhang은 최근 심오한 경험을했습니다.
“지난 금요일 시스템 업데이트 후, 거래 데이터가 신비하게 바뀌 었습니다. 보스가 설명을 요청했을 때, 내 마음은 가슴이 가라 앉았습니다. 다행히도 시간 여행 기능으로 단일 SQL 쿼리가 업데이트 전에 다시 문제를 발견했습니다.이 움직임은 즉시 ‘Six Six Six’!”
-- FOR TIME AS OF statement:
-- Read historical version data based on the snapshot time (consistent with the format on the Hudi official website)
-- Time travel to view historical data state
SELECT * FROM financial_trans
FOR TIME AS OF '2024-12-18 22:00:00';
그것은 “타임 머신”을 가지고있는 것과 같습니다.
점진적인 인식
모든 데이터 이동을 정확하게 포착 할 수있는 “여섯 번째 감각”을 갖는 것과 같습니다.
-- Doris provides @incr syntax support for Incremental Read
-- Get the most recent data changes
SELECT * FROM customer_mor@incr('beginTime'='xxx');
Doris의 향상으로 Hudi 데이터 테이블은 “All-Round Player”로 변모했습니다. 실시간 분석, 역사적 검토 또는 증분 처리이든 쉽게 처리 할 수 있습니다. 그것은 평범한 검을 “스스로 날아갈 수있는”신성한 무기로 업그레이드하는 것과 같습니다.
Doris + Hudi와의 Lakehouse 통합 기술
건축가 Old Wang은 주요 인터넷 회사의 기술 살롱에서 흥미로운 이야기를 들려주었습니다. “우리가 처음 Hudi를 사용했을 때 마라톤 러너와 같았습니다. 빠르지 만 무언가가 빠졌다는 느낌이 들었습니다. Doris를 만났기 때문에, 고속 열차를 타는 것과 같습니다. 더 빠르고 효율적입니다!”
이 비유는 방에있는 모든 사람들에게 공감했습니다. 실제로 Doris + Hudi의 조합은 예를 들어 다양한 분야에서 빛납니다.
광고 클릭 분석
광고 플랫폼은 매일 수억 개의 클릭 데이터를 처리합니다. 이전에는 전환율 분석을 실행하는 데는 자정이 걸리지만 이제는 점심 식사 전에 결과를 사용할 수 있습니다. 핵심은 데이터가 즉시 쿼리에 사용할 수 있으므로 전략 조정을보다 유연하게 만듭니다.
-- Real-time view of ad click conversion in the last hour
SELECT ad_id,
click_count,
convert_count,
convert_count/click_count as cvr
FROM ad_stats@incr('beginTime'='earliest')
WHERE event_time >= date_sub(now(), interval 1 hour)
GROUP BY ad_id;
Lakehouse Architecture는 데이터 세계에서 게임을 바꾸고 있습니다. Old Wang이 말했듯이, “과거에는 데이터 호수와 데이터웨어 하우스 사이에 다리를 만들었습니다. 이제 Doris + Hudi는 고속도로를 건설했습니다.”
기술 전문가가 말했듯이, “데이터 세계는 항상 변화하고 있지만 궁극적 인 성능 추구는 일정하게 유지됩니다.” 이 데이터 탐색의 여정을 계속합시다!
다음 호에서 더 흥미롭고 유용하며 귀중한 콘텐츠를 계속 지켜봐 주시기 바랍니다!
Post Comment