AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 2월 1, 2025 0 Comments

나쁜 DAG 생성 중지 – Python 코드를 개선하여 공기 흐름 환경을 최적화하십시오 | Alvaro Leandro Cavalcante Carneiro | 2025 년 1 월

Apache Airflow는 데이터 필드에서 가장 인기있는 오케스트레이션 도구 중 하나이며 전 세계 회사의 워크 플로우를 구동합니다. 그러나 생산 환경, 특히 복잡한 환경에서 이미 공기 흐름을 사용한 사람은 때때로 몇 가지 문제와 이상한 버그를 제시 할 수 있다는 것을 알고 있습니다.

공기 흐름 환경에서 관리 해야하는 여러 측면 중 하나는 종종 레이더 아래에서 날아가는 중 하나의 메트릭이 종종 날아갑니다. 하루 종소리 시간. 성능 병목 현상을 피하고 오케스트레이션의 올바른 기능을 보장하기 위해서는 구문 분석 시간을 모니터링하고 최적화하는 것이 필수적입니다.

즉,이 튜토리얼은 소개하는 것을 목표로합니다 airflow-parse-bench데이터 엔지니어가 공기 흐름 환경을 모니터링하고 최적화하여 코드 복잡성과 시간을 줄이는 통찰력을 제공하기 위해 개발 한 오픈 소스 도구.

공기 흐름과 관련하여 Dag Parse Time은 종종 an입니다 간과 된 메트릭. 구문 분석은 공기 흐름이 파이썬 파일을 처리하여 DAGS를 동적으로 구축 할 때마다 발생합니다.

기본적으로 모든 DAG는 30 초마다 구문 분석됩니다. 구성 변수로 제어되는 주파수 min_file_process_interval. 이것은 30 초마다, 모든 파이썬 코드가 dags 폴더는 예약 할 작업을 포함하는 DAG 객체를 생성하도록 폴더를 읽고, 가져오고, 처리합니다. 그런 다음 성공적으로 처리 된 파일이 DAG 백에 추가됩니다.

두 가지 주요 공기 흐름 구성 요소 가이 프로세스를 처리합니다.

함께, 두 구성 요소 모두 (일반적으로라고합니다 데이 프로세서) 공기 흐름 스케줄러에 의해 실행되므로 트리거되기 전에 DAG 객체가 업데이트되도록합니다. 그러나 확장 성 및 보안상의 이유로 DAG 프로세서를 클러스터에서 별도의 구성 요소로 실행할 수도 있습니다.

환경에 수십 개의 DAG 만 있으면 구문 분석 프로세스가 모든 종류의 문제를 일으킬 가능성은 낮습니다. 그러나 수백 또는 수천 개의 DAG가있는 생산 환경을 찾는 것이 일반적입니다. 이 경우 구문 분석 시간이 너무 높으면 다음으로 이어질 수 있습니다.

DAG 일정을 지연하십시오.
리소스 활용도를 높입니다.
환경 심장 박동 문제.
스케줄러 고장.
과도한 CPU 및 메모리 사용, 자원 낭비.

이제 불필요하게 복잡한 구문 분석 논리가 들어있는 수백 개의 DAG가있는 환경이 있다고 상상해보십시오. 작은 비 효율성은 빠르게 중대한 문제로 바뀌어 전체 공기 흐름 설정의 안정성과 성능에 영향을 줄 수 있습니다.

공기 흐름 DAG를 작성할 때 최적화 된 코드를 만들기위한 몇 가지 중요한 모범 사례가 있습니다. DAG를 개선하는 방법에 대한 많은 튜토리얼을 찾을 수 있지만 DAG 성능을 크게 향상시킬 수있는 몇 가지 주요 원칙을 요약하겠습니다.

최상위 코드를 제한합니다

높은 DAG 파싱 시간의 가장 일반적인 원인 중 하나는 비효율적이거나 복잡한 최상위 코드입니다. 공기 흐름 DAG 파일의 최상위 코드는 스케줄러가 파일을 구문 분석 할 때마다 실행됩니다. 이 코드에 데이터베이스 쿼리, API 호출 또는 동적 작업 생성과 같은 리소스 집약적 인 작업이 포함되어 있으면 구문 분석 성능에 크게 영향을 줄 수 있습니다.

다음 코드는 a의 예를 보여줍니다 최적화되지 않은 DAG: