N8N으로 데이터 품질 보고서 자동화 : CSV에서 전문 분석에 이르기까지

저자의 이미지 | chatgpt

모든 데이터 과학자가 알고있는 데이터 품질 병목 현상

방금 새 데이터 세트를 받았습니다. 분석을 시작하기 전에 작업중 인 작업을 이해해야합니다. 누락 된 값은 몇 개입니까? 어떤 열이 문제가 있습니까? 전체 데이터 품질 점수는 얼마입니까?

대부분의 데이터 과학자들은 각각의 새로운 데이터 세트를 수동으로 탐색하는 데 15-30 분을 소비합니다. .info(),,, .describe()그리고 .isnull().sum()그런 다음 누락 된 데이터 패턴을 이해하기 위해 시각화를 만듭니다. 이 루틴은 매일 여러 데이터 세트를 평가할 때 지루합니다.

CSV URL을 붙여 넣고 30 초 이내에 전문 데이터 품질 보고서를받을 수 있다면 어떨까요? 파이썬 환경 설정, 수동 코딩, 도구 간 전환 없음.

솔루션 : 4 노드 N8N 워크 플로

N8N ( “N-Eight-N”으로 발음)은 비주얼 드래그 앤 드롭 인터페이스를 통해 다양한 서비스, API 및 도구를 연결하는 오픈 소스 워크 플로 자동화 플랫폼입니다. 대부분의 사람들은 전자 메일 마케팅 또는 고객 지원과 같은 비즈니스 프로세스와 워크 플로 자동화를 연관하지만 N8N은 전통적으로 맞춤형 스크립팅이 필요한 데이터 과학 작업을 자동화하는 데 도움이 될 수 있습니다.

독립형 파이썬 스크립트 작성과 달리 N8N 워크 플로우는 시각적이고 재사용 가능하며 수정하기 쉽습니다. 다른 도구 나 환경 사이를 전환하지 않고도 데이터 소스를 연결하고, 변환을 수행하고, 분석을 실행하며, 결과를 제공 할 수 있습니다. 각 워크 플로는 서로 다른 동작을 나타내는 “노드”로 구성되어 있으며 자동화 된 파이프 라인을 생성합니다.

자동화 된 데이터 품질 분석기는 4 개의 연결된 노드로 구성됩니다.

N8N으로 데이터 품질 보고서 자동화 : CSV에서 전문 분석에 이르기까지

수동 트리거 – “실행”을 클릭하면 워크 플로를 시작합니다.
HTTP 요청 -URL에서 CSV 파일을 가져옵니다
코드 노드 – 데이터를 분석하고 품질 메트릭을 생성합니다
HTML 노드 – 아름답고 전문적인 보고서를 만듭니다

워크 플로 구축 : 단계별 구현

전제 조건

N8N 계정 (N8N.io에서 무료 14 일 평가판)
사전 구축 된 워크 플로우 템플릿 (JSON 파일 제공)
공개 URL을 통해 액세스 할 수있는 모든 CSV 데이터 세트 (테스트 예제를 제공하겠습니다)

1 단계 : 워크 플로 템플릿을 가져옵니다

처음부터 구축하는 대신 모든 분석 논리를 포함하는 사전 구성된 템플릿을 사용합니다.

워크 플로 파일을 다운로드하십시오
N8N을 열었습니다 “파일에서 가져 오기”를 클릭하십시오.
다운로드 된 JSON 파일을 선택하십시오 – 네 개의 노드 모두 자동으로 나타납니다
워크 플로를 저장하십시오 선호하는 이름으로

가져온 워크 플로에는 이미 구성된 모든 복잡한 구문 분석 및 분석 코드가 포함 된 4 개의 연결된 노드가 포함되어 있습니다.

2 단계 : 워크 플로 이해

각 노드가하는 일을 살펴 보겠습니다.

수동 트리거 노드: “워크 플로 실행”을 클릭하면 분석을 시작합니다. 주문형 데이터 품질 검사에 적합합니다.

HTTP 요청 노드: 공개 URL에서 CSV 데이터를 가져옵니다. 대부분의 표준 CSV 형식을 처리하고 분석에 필요한 원시 텍스트 데이터를 반환하도록 사전 구성되었습니다.

코드 노드: Delimiter 사용, 인용 된 필드 및 결 측값 형식의 일반적인 변형을 처리하기위한 강력한 CSV 구문 분석 논리를 포함하는 분석 엔진. 자동으로 :

지능형 필드 감지로 CSV 데이터를 구문 분석합니다
여러 형식의 결 측값을 식별합니다 (Null, Empty, “N/A”등).
품질 점수 및 심각도 등급을 계산합니다
구체적이고 실행 가능한 권장 사항을 생성합니다

HTML 노드: 분석 결과를 색상으로 구성된 품질 점수와 깨끗한 형식으로 아름답고 전문적인 보고서로 변환합니다.

3 단계 : 데이터 사용자 정의

자신의 데이터 세트를 분석하려면 :

HTTP 요청 노드를 클릭하십시오
URL을 교체하십시오 CSV 데이터 세트 URL을 사용하여 :
- 현재 :
- 귀하의 데이터 :
워크 플로를 저장하십시오

N8N으로 데이터 품질 보고서 자동화 : CSV에서 전문 분석에 이르기까지

그게 다야! 분석 논리는 다른 CSV 구조, 열 이름 및 데이터 유형에 자동으로 적응합니다.

4 단계 : 실행 및 결과를 봅니다

“워크 플로 실행”을 클릭하십시오. 최상위 도구 모음에서
노드 프로세스를 시청하십시오 – 완료되면 각각 녹색 체크 마크가 표시됩니다
HTML 노드를 클릭하십시오 보고서를 보려면 “HTML”탭을 선택하십시오
보고서를 복사하십시오 또는 스크린 샷을 찍어 팀과 공유하십시오

워크 플로가 설정되면 전체 프로세스가 30 초 미만입니다.

결과 이해

색상 코드 품질 점수는 데이터 세트에 대한 즉각적인 평가를 제공합니다.

95-100%: 완벽한 (또는 거의 완벽한) 데이터 품질, 즉각적인 분석 준비
85-94%: 최소한의 청소가 필요한 우수한 품질
75-84%: 좋은 품질, 일부 전처리가 필요합니다
60-74%: 공정 품질, 적당한 청소가 필요합니다
60% 미만: 품질이 좋지 않고 중요한 데이터 작업이 필요합니다

참고 :이 구현은 간단한 누락 된 데이터 기반 스코어링 시스템을 사용합니다. 데이터 일관성, 특이 치 감지 또는 스키마 검증과 같은 고급 품질 메트릭을 향후 버전에 추가 할 수 있습니다.

최종 보고서의 모습은 다음과 같습니다.

이 예제 분석은 99.42% 품질 점수를 보여줍니다. 데이터 세트가 크게 완료되었으며 최소한의 전처리로 분석 준비가되었음을 나타냅니다.

데이터 세트 개요 :

173 총 기록: 빠른 탐색 분석에 이상적이지만 충분한 샘플 크기
21 개의 총 열: 집중 통찰력을 허용하는 관리 가능한 수의 기능
누락 된 데이터가있는 4 개의 열: 몇 가지 선택된 필드에는 간격이 포함되어 있습니다
17 개의 열: 대부분의 필드는 완전히 채워져 있습니다

다른 데이터 세트로 테스트

워크 플로가 다양한 데이터 품질 패턴을 처리하는 방법을 보려면이 예제 데이터 세트를 사용해보십시오.

아이리스 데이터 세트 (https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv) 일반적으로 결 측값이없는 완벽한 점수 (100%)를 보여줍니다.
타이타닉 데이터 세트 (https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)는 연령 및 객실과 같은 열의 전략적 누락 데이터로 인해보다 현실적인 67.6% 점수를 보여줍니다.
자신의 데이터 : GitHub RAW에 업로드하거나 공개 CSV URL을 사용하십시오.

품질 점수를 기준으로 다음 단계를 결정할 수 있습니다. 95% 이상의 수단 탐색 데이터 분석으로 직접 진행하고, 85-94%는 식별 된 문제가 최소화 된 문제를 암시하고, 75-84%는 중간 정도의 전처리 작업이 필요하다는 것을 나타냅니다. 60-74%는 여러 컬럼에 대한 표적 세척 전략을 계획해야하며 60% 미만이 데이터 세트가 귀하의 분석 목표에 적합한 경우, 상당한 데이터 작업이 정리되어 있는지 여부를 제안합니다. 워크 플로는 모든 CSV 구조에 자동으로 적응하여 여러 데이터 세트를 신속하게 평가하고 데이터 준비 노력의 우선 순위를 정할 수 있습니다.

다음 단계

1. 이메일 통합

추가 a 이메일 보내기 Node는 HTML 노드 다음에 연결하여 이해 관계자에게 자동으로 보고서를 전달합니다. 이렇게하면 워크 플로가 새 데이터 세트를 분석 할 때마다 품질 보고서가 프로젝트 관리자, 데이터 엔지니어 또는 클라이언트에게 자동으로 전송되는 배포 시스템으로 변환됩니다. 품질 점수를 기반으로 경영진 요약 또는 특정 권장 사항을 포함하도록 이메일 템플릿을 사용자 정의 할 수 있습니다.

2. 예약 된 분석

수동 트리거를 a로 교체하십시오 스케줄 트리거 정기적으로 데이터 세트를 자동으로 분석하려면 자주 업데이트되는 데이터 소스를 모니터링하는 데 적합합니다. 주요 데이터 세트에서 매일, 매주 또는 월별 점검을 설정하여 품질 저하를 일찍 포착합니다. 이 사전 예방 접근 방식은 다운 스트림 분석 또는 모델 성능에 영향을 미치기 전에 데이터 파이프 라인 문제를 식별하는 데 도움이됩니다.

3. 다중 데이터 세트 분석

워크 플로를 수정하여 CSV URL 목록을 수락하고 여러 데이터 세트에서 동시에 비교 품질 보고서를 생성하십시오. 이 배치 처리 방식은 새로운 프로젝트의 데이터 소스를 평가하거나 조직의 데이터 인벤토리에서 정기 감사를 수행 할 때 매우 중요합니다. 품질 스코어로 데이터 세트를 순위로운 요약 대시 보드를 만들어 분석 준비가 필요한 데이터 소스와 즉각적인주의를 기울여야하는 데이터 소스를 우선시 할 수 있습니다.

4. 다른 파일 형식

코드 노드에서 구문 분석 로직을 수정하여 CSV 이외의 다른 데이터 형식을 처리하도록 워크 플로를 확장하십시오. JSON 파일의 경우 중첩 된 구조 및 배열을 처리하기 위해 데이터 추출을 조정하는 반면, XLSX를 CSV 형식으로 변환하기 위해 전처리 단계를 추가하여 Excel 파일을 처리 할 수 있습니다. 여러 형식을 지원하면 품질 분석기가 데이터를 저장하거나 전달하는 방법에 관계없이 조직의 모든 데이터 소스에 대한 범용 도구가됩니다.

결론

이 N8N 워크 플로우는 시각적 자동화가 데이터 과학자들이 요구하는 기술적 깊이를 유지하면서 일상적인 데이터 과학 작업을 간소화 할 수있는 방법을 보여줍니다. 기존 코딩 배경을 활용하면 JavaScript 분석 로직을 사용자 정의하고 HTML보고 템플릿을 확장하며 직관적 인 비주얼 인터페이스 내에서 선호하는 데이터 인프라와 통합 할 수 있습니다.

워크 플로의 모듈 식 설계는 기술 요구 사항과 데이터 품질 평가의 비즈니스 컨텍스트를 모두 이해하는 데이터 과학자에게 특히 가치가 있습니다. Rigid No-Code 도구와 달리 N8N을 사용하면 기본 분석 논리를 수정하면서 워크 플로우를 쉽게 공유, 디버그 및 유지 관리 할 수있는 시각적 명확성을 제공 할 수 있습니다. 이 기초부터 시작하여 통계적 이상 탐지, 맞춤형 품질 메트릭 또는 기존 MLOPS 파이프 라인과의 통합과 같은 정교한 기능을 점차적으로 추가 할 수 있습니다.

가장 중요한 것은이 접근법은 데이터 과학 전문 지식과 조직 접근성 사이의 격차를 해소합니다. 기술 동료는 코드를 수정할 수 있지만 비 기술적 이해 관계자는 워크 플로우를 실행하고 결과를 즉시 해석 할 수 있습니다. 기술적 인 정교함과 사용자 친화적 인 실행의 이러한 조합은 N8N이 개별 분석을 넘어 영향을 확장하려는 데이터 과학자에게 이상적입니다.

인도에서 태어나 일본에서 자란 Vinod는 데이터 과학 및 기계 학습 교육에 대한 세계적인 관점을 제시합니다. 그는 신흥 AI 기술과 작업 전문가를위한 실질적인 구현 사이의 격차를 해소합니다. Vinod는 에이전트 AI, 성능 최적화 및 AI 엔지니어링과 같은 복잡한 주제를위한 접근 가능한 학습 경로를 만드는 데 중점을 둡니다. 그는 실용적인 기계 학습 구현에 중점을두고 라이브 세션과 개인화 된 지침을 통해 차세대 데이터 전문가를 멘토링합니다.

출처 참조

최신 기술 뉴스 정보 모두

N8N으로 데이터 품질 보고서 자동화 : CSV에서 전문 분석에 이르기까지

모든 데이터 과학자가 알고있는 데이터 품질 병목 현상

솔루션 : 4 노드 N8N 워크 플로