성공적인 데이터 분석 프로젝트의 비하인드 스토리 | 작성자: Ilona Hetsevich | 2025년 1월
전문가처럼 데이터 분석 프로젝트에 접근하는 단계를 알아보세요.


한동안 데이터 분석가로 일하면서 수많은 프로젝트를 진행하면서 각 프로젝트가 독특하더라도 항상 이에 접근하는 입증된 방법이 있다고 말할 수 있습니다.
오늘은 여러분도 따라할 수 있도록 데이터 프로젝트 작업 시 제가 일반적으로 수행하는 단계를 여러분과 공유하겠습니다.
1단계: 문제와 목표 정의
문제가 무엇인지, 더 큰 그림에 어떻게 들어맞는지 이해하지 못한다면 문제를 해결하거나 비즈니스 질문에 답할 수 없습니다.
작업이 아무리 크거나 복잡하더라도 데이터를 다루기 전에 비즈니스 이해관계자가 달성하려는 것이 무엇인지 항상 이해해야 합니다. 이것은 많은 질문을 하는 부분이며, 적어도 몇 가지 답변을 얻기 전에는 어떤 데이터에도 들어가지 않습니다.
저는 경력 초기에 이것을 힘들게 배웠습니다. 그때는 막연한 요구가 있었을 때 “이번 달에는 방문객이 감소했습니다. 이유를 확인해 주실 수 있나요?” 오면 즉시 일에 뛰어들 것입니다. 하지만 매번 나는 올바른 질문을 미리 하지 않았기 때문에 실제 문제를 이해하려고 몇 시간을 낭비했습니다.
나는 맥락을 묻지 않았습니다.
- 팀에 트래픽이 많아야 하는 이유는 무엇입니까?
- 선택한 전략은 무엇이었나요(브랜드 인지도 대 수요 창출)?
- 선택한 전술은 무엇이었나요(유료 검색 vs 프로그래밍 방식)?
- 투자는 무엇이었나요?
나는 이해관계자들에게 데이터를 받은 후 무엇을 할지 묻지 않았습니다.
- 가입과 매출을 늘리고 싶었나요?
- 그들은 웹사이트 방문이 인상적으로 보일 수 있지만 반드시 비즈니스 결과와 연관되는 것은 아니며 전환율과 같은 지표에 초점을 맞추는 것이 훨씬 더 나은 효과를 가져올 것이라는 점을 알고 있었습니까?
이 초기 첫 번째 단계는 다른 모든 것에 영향을 미치기 때문에 중요합니다. 데이터 소스 데이터를 검색하는 데 사용됩니다. 측정항목 당신은 분석할 것이다, 체재 통찰력을 제시하는 데 사용할 것입니다. 타임라인 준비가 되어 있어야 합니다.
그러니 절대 건너뛰지 마세요 아니면 당신이 그 과정에서 그것을 알아낼 수 있기를 바라면서 부분적으로 이해하십시오.
2단계: 기대치 설정
문제를 정의한 후에는 기대치를 설정할 차례입니다.
이해관계자들은 데이터를 수집하고 분석하는 데 얼마나 많은 시간과 노력이 들어가는지 항상 깨닫지 못합니다. 당신은 조직에서 답을 찾을 수 있는 몇 안 되는 사람 중 하나이기 때문에 많은 요청을 받습니다. 그렇기 때문에 우선순위를 정하고 기대치를 설정해야 합니다.
문제, 복잡성, 1단계의 조직 목표와 일치하는 방법을 이해하면 작업을 완료할 수 있는 시기 또는 지금 당장 우선순위를 지정하지 않는 이유를 이해관계자에게 전달하고 우선순위를 지정하는 데 도움이 됩니다. 가장 영향력 있는 작업에 집중하고 싶습니다.
내 동료가 현명한 접근 방식을 취했습니다. 그들은 작업을 제출할 때 이해관계자가 설문지를 작성하도록 요구했습니다. 이 설문지에는 문제 설명, 타임라인 등에 대한 다양한 질문이 포함되어 있으며 다음과 같은 질문도 포함되었습니다.통찰력으로 무엇을 하시겠습니까?“. 이 접근 방식은 필요한 모든 정보를 미리 수집하여 주고받는 의사소통의 필요성을 제거했을 뿐만 아니라 이해관계자가 다른 정보를 제출하기 전에 두 번 생각하게 만들었습니다. “빨리 좀 봐줄래…?” 요구. 천재죠?
3단계: 데이터 준비
문제를 정의하고 기대치를 설정했으므로 이제 데이터를 준비할 차례입니다.
이것은 스스로에게 질문하는 단계입니다.
- 사용 가능한 모든 데이터가 있습니까, 아니면 먼저 수집해야 합니까?
- 필요한 모든 도메인 지식을 갖추고 있습니까, 아니면 조사를 수행해야 합니까?
- 관련 데이터세트에 사용할 수 있는 문서가 있나요? (문서가 없는 경우 데이터 소유자에게 문의하여 확인해야 할 수도 있습니다.)
이 단계에서 대답해야 할 또 다른 중요한 질문은 다음과 같습니다. “어떤 측정항목을 측정해야 하나요?”
나는 항상 측정항목을 비즈니스 목표에 맞춰 조정합니다. 예를 들어 브랜드 인지도를 높이는 것이 목표라면 노출수, 브랜드 검색량, 직접 트래픽, 도달률과 같은 지표를 우선시합니다. 목표가 판매 촉진이라면 전환율, 평균 주문 가치, 고객 확보 비용에 중점을 둡니다. 또한 분석이 포괄적이고 완전한 그림을 그릴 수 있도록 보조 측정항목(인구통계, 장치 사용, 고객 행동)을 탐색합니다.
4단계: 데이터 탐색
이제 재미있는 부분인 탐색적 데이터 분석(EDA)이 시작됩니다. 나는 모든 마법이 일어나는 곳이기 때문에 이 부분을 좋아합니다. 형사처럼 증거를 검토하고, 사건을 조사하고, 가설을 세우고, 숨겨진 패턴을 찾습니다.
데이터를 탐색하면서 다음을 수행할 수 있습니다.
- 더 나은 질문을 해보세요. 데이터에 더 익숙해지면 구체적인 질문으로 데이터 소유자에게 접근하여 동료의 눈에 유능하고 지식이 풍부하며 자신감 있는 사람으로 보일 수 있습니다.
- 기능 엔지니어링으로 혁신하세요. 기존 기능에서 새로운 기능을 만들어야 하는지 여부를 이해합니다. 이는 눈에 띄지 않을 수도 있는 데이터의 기본 패턴을 더 잘 포착하는 데 도움이 됩니다.
- 데이터 품질을 평가합니다. 데이터 행 수를 확인하고 이상치, 누락, 중복 데이터 등의 이상이 있는지 확인합니다.
탐색 단계에서 데이터를 정리해야 한다고 표시하는 경우(그렇지 않은 경우가 더 많음) 데이터 정리를 진행합니다.
5단계: 데이터 정리
데이터 세트가 언뜻 보기에 아무리 세련되어 보이더라도 그것이 깨끗하다고 가정하지 마십시오. 데이터 품질 문제는 그렇지 않은 경우보다 더 일반적입니다.
수정해야 할 가장 일반적인 데이터 품질 문제는 다음과 같습니다.
1. 누락된 값:
누락된 데이터를 처리하는 방법은 경우에 따라 다릅니다.
- 데이터 입력 오류로 인한 것일 경우 관련팀과 협력하여 수정합니다.
- 원본 데이터를 복구할 수 없는 경우 누락된 값을 제거하거나 업계 벤치마크를 사용하여 값을 대치하거나 평균 또는 중앙값을 계산하거나 기계 학습 방법을 적용해야 합니다.
- 누락된 값이 데이터 세트의 작은 부분을 나타내고 분석에 큰 영향을 미치지 않는 경우 일반적으로 해당 값을 제거해도 됩니다.
2. 일관되지 않은 데이터: 데이터 형식이 일치하지 않는지 확인하고 표준화하세요.
3. 중복된 기록: 왜곡된 결과를 방지하려면 중복 기록을 식별하고 제거하세요.
4. 데이터의 이상치 또는 오류: 데이터에 이상값이나 오류가 있는지 확인하세요. 상황에 따라 제거, 수정, 유지 여부를 결정하세요.
데이터가 정리되면 분석 단계로 진행할 차례입니다.
6단계: 데이터 분석
이것이 당신의 탐정 작업이 성과를 거두기 시작하는 곳입니다.
핵심은 매우 집중적이고 구체적인 질문으로 시작하고 가설을 염두에 두어 편견을 갖지 않는 것입니다. 데이터를 사용하여 자신이나 동료가 듣고 싶어하거나 기대하는 이야기를 전달하는 것은 유혹적일 수 있지만 데이터세트 자체가 말하도록 해야 합니다.
나는 데이터를 분석할 때 근본 원인 접근 방식을 선호합니다. 예를 들어, 질문에 답하려면, “가입자가 감소하는 이유는 무엇입니까?” 나는 다음 10단계를 따르겠다.
- 추세 분석: 하락은 언제 처음으로 발생합니까? 계절인가요?
- 트래픽 및 전환율: 사이트를 방문하는 사람이 적습니까, 아니면 가입하는 방문자가 적습니까?
- 제안 성과: 감소가 광범위하게 발생합니까, 아니면 특정 제안에만 국한됩니까?
- 웹사이트 성능: 기술적인 문제나 끊어진 링크가 있나요?
- 사용자 통찰력: 특정 세그먼트 또는 모든 사용자에게 특정한 패턴이 있습니까?
- 사용자 여정 분석: 잠재 고객이 이탈하는 마찰 지점이 있나요?
- 캠페인 성과: 최근 마케팅 캠페인이나 전략, 예산 할당 또는 실행의 변경이 효과에 영향을 미쳤습니까?
- 경쟁사 활동: 경쟁업체가 마케팅 캠페인, 신제품 또는 기능을 출시했습니까? 가격이 바뀌었나요? 고객을 끌어들이는 또 다른 이유가 있나요?
- 시장 동향: 업계의 판매에 영향을 미치는 시장 동향과 소비자 행동의 변화가 있습니까?
- 고객 피드백: 고객이 제안에 만족하지 않습니까? 그들의 요구사항이 바뀌었나요? 더 많은 지원 티켓을 받을 수 있나요?
또 다른 중요한 점은 가장 빠르고 정확한 답변은 일반적으로 동일하지 않으며 많은 부분이 상황에 따라 달라진다는 것입니다. 맥락. 그렇기 때문에 다양한 기능을 수행하는 팀과 협력하고 강력한 도메인 및 산업 지식을 개발해야 합니다.
7단계: 스토리 구축
이 단계는 데이터 탐색 다음으로 제가 두 번째로 좋아하는 단계입니다. 왜냐하면 모든 데이터 조각이 제 위치에 놓여 명확한 스토리를 드러내고 완벽하게 이해되는 단계이기 때문입니다.
여기서 흔히 저지르는 실수는 청중이 관심을 갖는 것에 초점을 맞추는 대신 흥미롭다고 생각하는 모든 것을 포함하는 것입니다.
알겠습니다. 통찰력을 얻기 위해 열심히 노력한 후에는 자신이 한 멋진 일을 모두 자랑하고 싶은 유혹이 듭니다. 그러나 청중에게 데이터가 너무 많으면 청중을 더욱 혼란스럽게 할 수 있습니다.
모든 데이터 포인트를 이해관계자에게 던지지 마십시오. 대신 청중에게 가장 중요한 것에 집중하십시오. 직급, 주제에 얼마나 친숙한지, 데이터 활용 능력 수준, 시간이 얼마나 있는지, 직접 프레젠테이션을 하는지 이메일을 통해 보고서를 보내는지 생각해 보세요. 이렇게 하면 다른 사람의 시간을 낭비하지 않아도 됩니다.
마지막으로 항상 스토리에 이해관계자에게 실행 가능한 권장 사항을 포함하세요. 귀하의 스토리는 이해관계자들을 다음 단계로 안내하여 귀하의 통찰력이 의미 있는 결정을 내릴 수 있도록 해야 합니다.
이를 통해 통찰력과 권장 사항을 공유하는 다음 단계로 넘어갑니다.
8단계: 통찰력 공유
데이터 분석가로서 귀하에게는 변화를 주도할 수 있는 힘이 있습니다. 그 비밀은 데이터를 공유하고 스토리를 전달하는 방법에 있습니다.
먼저 청중이 기대하는 형식을 고려하십시오(1단계 참조). 대시보드를 만들거나, 보고서를 이메일로 보내거나, 직접 프레젠테이션을 하시나요? 데이터 스토리텔링은 라이브 프레젠테이션에 매우 중요합니다.
훌륭한 데이터 스토리가 혼합되어 있습니다. 데이터, 내러티브, 시각 자료, 실습:
데이터: 실제 비즈니스에 영향을 미치는 통찰력에만 집중하세요. 귀하의 통찰력이 청중에게 중요한 이유를 찾을 수 없는 경우, 통찰력으로 무엇을 해야 하는지 불분명하거나 비즈니스 영향이 미미한 경우 부록으로 옮기십시오.
이야기: 스토리의 구조가 명확한지 확인하세요.
- 장면 설정: 지금 무슨 일이 일어나고 있나요?
- 문제를 소개합니다(긴장감을 조성하기 위해).
- 주요 통찰력 공개: 무엇을 발견했습니까?
- 실행 가능한 단계로 마무리합니다. 다음에 무엇을 해야 합니까?
이는 청중의 관심을 유지하고 이야기를 기억에 남게 만듭니다.
영상: 통찰력을 발견하는 데 도움이 된 차트가 항상 통찰력을 제시하는 데 가장 적합한 것은 아닙니다. 핵심 사항을 강조하고 혼란을 피하십시오. 예를 들어, 10개의 범주를 분석했지만 2개만 중요한 범주인 경우 해당 범주에 집중하세요.
관행: 연습을 하면 자료에 대해 더 편안함을 느낄 수 있습니다. 또한 눈맞춤, 손짓, 속도와 같은 중요한 것에 집중할 수 있습니다. 더 많이 연습할수록 더 자신감 있고 신뢰할 수 있는 모습을 보일 것입니다.
통찰력을 공유하고 나면 데이터 분석가로서의 작업이 완료되었다고 생각할 수도 있습니다. 실제로 당신은 사람들이 당신이 발견한 것을 듣는 것뿐만 아니라 당신의 통찰력에 따라 행동하기를 원합니다. 이는 사람들이 귀하의 데이터에 따라 행동하도록 하는 마지막 단계로 이어집니다.
9단계. 사람들이 귀하의 데이터에 따라 행동하도록 하세요.
내 작업이 영향을 미치고 실제 변화를 주도할 수 있는 기회를 보는 것은 나에게 가장 큰 만족감을 줍니다. 그러니 여러분의 노력도 낭비하지 마십시오.
- 관련 팀과 협력하여 명확한 조치 단계, 타임라인, 성공 지표를 설정하세요.
- 진행 상황을 모니터링하고 권장 사항이 구현되고 있는지 확인하세요.
- 여러 기능을 담당하는 팀과 정기적으로 소통하여 권장 사항의 영향을 추적하세요.
지금 당장은 부담스러울 수도 있다는 점은 이해하지만 걱정하지 마세요. 연습을 하면 더 쉬워질 것이고, 당신이 알기도 전에 이러한 단계는 제2의 천성이 될 것입니다.
데이터 분석가로서의 여정에 행운이 있기를 바랍니다! 당신은 올바른 길을 가고 있습니다!
Post Comment