실제로 유용한 기계 학습 모델 구축을위한 팁

저자의 이미지 | 표의 문자

틀 소개

실제 문제를 실제로 해결하는 기계 학습 모델을 구축하는 것은 테스트 세트에서 높은 정확도 점수를 달성하는 것만이 아닙니다. 생산 환경에서 일관되게 작동하는 시스템을 구축하는 것입니다.

이 기사는 인상적인 메트릭이 아닌 신뢰할 수있는 비즈니스 가치를 제공하는 모델을 구축하는 데 중점을 둔 7 가지 실용적인 팁을 제시합니다. 시작합시다!

틀 1. 알고리즘이 아닌 문제로 시작하십시오

머신 러닝 프로젝트에서 가장 일반적인 실수는 해결하려는 내용을 이해하기 전에 특정 기술에 초점을 맞추는 것입니다. 그라디언트 부스팅 모델이나 신경망을 코딩하기 전에 하이퍼 파라미터 튜닝을 시작하기 전에 실제로 모델을 사용할 사람들과 진지한 시간을 보내십시오.

이것이 실제로 어떻게 보이는지 :

기존 프로세스를 적어도 일주일 이상 섀도 웁니다
실제 달러로 잘못된 긍정적 인 긍정적 인 비용을 이해
전체 워크 플로를 매핑하여 모델이 적합합니다.
모델에 대한 “충분한”성능이 어떤 의미와 해결하는 문제를 식별하십시오.

사기의 95%를 차지하지만 합법적 인 거래의 20%가 수학적으로 인상적이지만 운영상 쓸모가 없을 수있는 사기 탐지 모델은 수학적으로 인상적 일 수 있습니다. 최고의 모델은 종종 비즈니스 바늘을 안정적으로 움직이는 가장 간단한 모델입니다.

틀 2. 데이터 품질을 가장 중요한 기능으로 취급하십시오

모델은 데이터만큼 우수하지만 대부분의 팀은 알고리즘에 시간의 80%, 데이터 품질에 20%를 소비합니다. 이 비율을 뒤집습니다. 깨끗하고 대표적이며 잘 이해 된 데이터는 매번 품질이 좋지 않은 데이터에 대해 교육을받은 멋진 알고리즘을 능가합니다.

이 습관을 일찍 구축하십시오.

모든 파이프 라인에서 자동으로 실행되는 데이터 품질 검사 생성
생산에서 데이터 드리프트 메트릭을 추적합니다
데이터 소스 및 변환을 추적하십시오
주요 통계적 특성이 변경 될 때 알림 설정

기억하십시오 : 고품질 데이터에 대해 훈련 된 선형 회귀는 종종 일관되지 않거나 편견 또는 구식 정보에 대해 훈련 된 심층 신경망보다 성능이 우수합니다. 비즈니스와 같은 데이터 인프라에 투자하십시오.

틀 3. 첫날부터 해석 가능성을위한 설계

“블랙 박스”모델은 머신 러닝을 학습 할 때 잘 작동 할 수 있습니다. 그러나 생산의 경우 항상 해석 가능성을 추가하는 것이 좋습니다. 모델이 잘못된 잘못된 예측을 할 때 왜 발생한 이유와이를 방지하는 방법을 이해해야합니다.

실제 해석 가능성 전략 :

같은 속성 방법을 사용하십시오 모양 또는 라임 개별 예측을 설명합니다
다른 알고리즘에서 작동하는 모델 비석 학적 설명을 사용해보십시오
해석 가능한 기준으로 의사 결정 트리 또는 규칙 기반 모델을 만듭니다
일반 영어로 드라이브 예측을 특징으로하는 문서

이것은 단지 규제 준수 또는 디버깅에 관한 것이 아닙니다. 해석 가능한 모델은 문제 영역에 대한 새로운 통찰력을 발견하고 이해 관계자 신뢰를 구축하는 데 도움이됩니다. 추론을 설명 할 수있는 모델은 체계적으로 개선 될 수있는 모델입니다.

틀 4. 테스트 세트뿐만 아니라 실제 시나리오에 대해 검증하십시오

전통적인 열차/검증/테스트 스플릿은 종종 가장 중요한 질문을 놓치고 있습니다.이 모델은 조건이 변경 될 때 작동합니까? 실제 배포에는 신중하게 선별 된 테스트 세트가 예상하지 못한 데이터 배포 이동, 에지 케이스 및 적대적 입력이 포함됩니다.

기본 검증을 넘어서 :

다른 기간, 지역 또는 사용자 세그먼트의 데이터에 대한 테스트
현실적인 에지 케이스 및 실패 모드를 시뮬레이션하십시오
적대적 검증과 같은 기술을 사용하여 데이터 세트 이동을 감지하십시오
정상적인 작동 조건을 넘어 모델을 밀어 붙이는 스트레스 테스트 생성

지난 달 데이터에서 모델이 잘 수행되지만 오늘날의 트래픽 패턴에 실패하면 실제로 도움이되지는 않습니다. 처음부터 유효성 검사 프로세스에 견고성 테스트를 구축하십시오.

틀 5. 배포 전에 모니터링을 구현하십시오

대부분의 머신 러닝 팀은 모니터링을 사후 생각으로 취급하지만 생산 모델은 조용하고 예측할 수 없을 정도로 저하됩니다. 비즈니스 메트릭을 통해 성능 문제를 발견 할 때 이미 상당한 손상이 이루어질 수 있습니다.

필수 모니터링 구성 요소 :

입력 데이터 배포 추적 (예측에 영향을 미치기 전에 드리프트 감지)
예측 신뢰도 점수 및 이상치 탐지
모델 성능 메트릭은 시간이 지남에 따라 추적되었습니다
비즈니스 메트릭 상관 분석
비정상적인 행동에 대한 자동 경고

배포 후가 아니라 개발 중에 모니터링 인프라를 설정하십시오. 모니터링 시스템은 사용자가하기 전에 문제를 감지 할 수 있어야하므로 비즈니스 영향이 발생하기 전에 재교육 또는 롤백 시간을 제공합니다.

틀 6. 모델 업데이트 및 재교육 계획

모델의 성능이 항상 일관되지는 않습니다. 사용자 행동 변화, 시장 조건 전환 및 데이터 패턴이 발전합니다. 오늘날 완벽하게 작동하는 모델은 현재까지 유지하는 데 체계적인 접근 방식이 없으면 시간이 지남에 따라 점차적으로 덜 유용해질 것입니다.

지속 가능한 업데이트 프로세스 구축 :

데이터 파이프 라인 업데이트 및 기능 엔지니어링을 자동화합니다
성능 저하 임계 값에 따라 재교육 일정을 만듭니다
모델 업데이트를위한 A/B 테스트 프레임 워크를 구현하십시오
모델, 데이터 및 코드에 대한 버전 제어를 유지하십시오
증분 업데이트 및 완전한 모델 재건을 계획하십시오

목표는 완벽한 모델을 만드는 것이 아닙니다. 신뢰성을 유지하면서 변화하는 조건에 적응할 수있는 시스템을 만드는 것입니다. 모델 유지 보수는 일회성 엔지니어링 작업이 아닙니다.

틀 7. 메트릭이 아닌 비즈니스 영향을 최적화합니다

정확도, 정밀성 및 리콜은 유용하지만 비즈니스 메트릭은 아닙니다. 가장 유용한 머신 러닝 모델은 수익 증가, 비용 절감, 고객 만족도 개선 또는 더 빠른 의사 결정과 같은 측정 가능한 비즈니스 결과에 최적화됩니다.

기술 메트릭을 비즈니스 가치와 정렬합니다.

비즈니스 성과 측면에서 성공 기준을 정의하십시오
오류가 다른 비즈니스 비용이 다른 경우 비용에 민감한 학습을 사용합니다.
시간이 지남에 따라 모델 ROI 및 비용 효율성을 추적합니다
모델 예측과 비즈니스 결과간에 피드백 루프를 구축하십시오

비즈니스 프로세스를 10% 향상시키는 반면 85% 정확한 모델은 바늘을 움직이지 않는 99% 정확한 모델보다 무한히 가치가 있습니다. 인상적인 벤치 마크 점수뿐만 아니라 측정 가능한 값을 만드는 시스템에 중점을 둡니다.

틀 마무리

유용한 기계 학습 모델을 구축하려면 알고리즘을 넘어 전체 시스템 라이프 사이클에 대한 생각이 필요합니다. 명확한 문제 정의로 시작하고 데이터 품질에 크게 투자하고 해석 가능성 및 모니터링을위한 설계를하고 항상 실제 비즈니스 영향을 최적화하십시오.

가장 성공적인 기계 학습 실무자는 반드시 최첨단 알고리즘에 대한 깊은 지식을 가진 사람은 아닙니다. 그것들은 생산에서 안정적으로 작동하고 조직을 위해 측정 가능한 가치를 창출하는 시스템을 지속적으로 제공 할 수있는 사람들입니다.

기억하십시오 : 잘 이해되고, 제대로 모니터링되고, 비즈니스 요구와 일치하는 간단한 모델은 항상 개발에 완벽하게 작동하지만 실제 세계에서 예측할 수없는 복잡한 모델보다 항상 도움이됩니다.

발라 프리 야 c 인도의 개발자이자 기술 작가입니다. 그녀는 수학, 프로그래밍, 데이터 과학 및 컨텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 지식에는 DevOps, 데이터 과학 및 자연어 처리가 포함됩니다. 그녀는 독서, 쓰기, 코딩 및 커피를 즐깁니다! 현재 그녀는 자습서, 방법 안내, 의견 조각 등을 통해 개발자 커뮤니티와 지식을 배우고 공유하는 작업을하고 있습니다. Bala는 또한 매력적인 리소스 개요 및 코딩 자습서를 만듭니다.

출처 참조