인간의 마음과 기계 학습 모델

Dee가 “인간의 블랙박스” 사전 훈련된 패턴을 사용하면 이것이 패턴과 얼마나 밀접하게 일치하는지 생각하지 않을 수 없습니다. 기계 학습 프로세스. 인간이 의사 결정에 영향을 미치는 여러 상호 연결된 요소를 갖고 있는 것처럼 ML 모델에도 이러한 복잡성이 있습니다.

그렇다면 머신러닝이란 무엇일까요?

이를 가능하게 하는 AI의 하위 집합입니다. 기계 배우기 위해 과거 데이터 (또는 과거 데이터) 그리고 나서 만들다 예측이나 결정 새로운 데이터 기록에 없이 명시적으로 프로그래밍됨 가능한 모든 시나리오에 대해.

이를 통해 가장 일반적인 ML “시나리오” 중 일부는 다음과 같습니다.

예측 또는 회귀 (예: 주택 가격 예측)
분류 (예: 고양이와 개 이미지에 라벨링)
클러스터링 (예: 쇼핑 습관을 분석하여 고객 그룹 찾기)
변칙 발각 (예: 사기 분석을 위해 거래에서 이상값 찾기)

또는 인간의 인지적 일상 업무를 통해 이러한 시나리오를 예시하기 위해 예측하다 (예: 오늘 비가 올까?), 나누다 (예: 저 사람은 친구야, 낯선 사람이야?), 그리고 감지하다 변칙 (예: 우리 냉장고에 있던 치즈가 상했어). 차이점은 우리가 어떻게 하느냐에 있습니다. 프로세스 이것들 작업 그리고 어느 입력 또는 데이터 우리 가지다 (예: 구름의 존재 vs. 밝고 맑은 하늘).

따라서 데이터(및 해당 품질)는 항상 위 시나리오에서 품질 모델 결과를 생성하는 핵심입니다.

데이터: 핵심 “입력”

다양한 소스(예: YouTube의 비디오, 라디오에서 나오는 음악, Medium의 블로그 게시물, Excel 시트의 재무 기록 등)에서 다중 모드 감각 입력을 수집하는 인간과 마찬가지로 ML 모델은 다음 사항에 의존합니다. 데이터 그것은 다음과 같습니다:

구조화됨 (스프레드시트의 행과 유사)
반 구조화 (JSON, XML 파일)
구조화되지 않음 (이미지, PDF 문서, 자유 형식 텍스트, 오디오 등)

데이터는 ML 모델이 생성하는 모든 통찰력의 원동력이 되므로 (데이터 전문가) 그것을 준비하는 데 상당한 시간을 소비합니다. 50~70% 전체 ML 프로젝트 노력의 일부입니다.

이 준비 단계에서는 ML 모델에 인간이 자연스럽게 수행하는 ‘필터링 및 사전 처리’를 맛볼 수 있습니다.

이상값을 찾고, 누락된 값과 중복을 처리하고, 입력(특성)의 불필요한 특성 중 일부를 제거하거나 새 특성을 생성합니다.

위에 나열된 작업을 제외하고 데이터 입력을 추가로 “조정”할 수 있습니다. — Dee가 요인이 “더 두껍거나” “얇다”고 언급한 것을 기억하시나요? — ML에서는 다음을 통해 비슷한 것을 달성합니다. 특징 공학 그리고 무게 과제에스완전히 수학적 방식으로 말이죠.

요약하자면, 우리는 모델이 깨끗한 고품질 데이터로부터 “학습”하여 보다 신뢰할 수 있는 모델 출력을 생성할 수 있도록 데이터 입력을 “구성”하고 있습니다.

모델링: 훈련 및 테스트

Dee가 설명했듯이 인간은 의도적인 연습을 통해 “요인 가중치”를 학습하고 조정할 수 있지만 ML 모델은 유사한 구조의 학습 프로세스를 가지고 있습니다.

데이터의 모양이 양호해지면 이를 ML 알고리즘(예: 신경망, 의사결정 트리 또는 앙상블 방법)에 입력합니다.

일반적인 지도 학습 설정에서 알고리즘은 정답이 표시된 예(예: ‘고양이’ 또는 ‘개’라는 라벨이 붙은 수천 개의 이미지)를 확인합니다.

그런 다음 내부 가중치(“중요 요소” 버전)를 조정하여 해당 레이블을 최대한 정확하게 일치(예측)합니다. 즉, 훈련된 모델은 학습된 패턴을 기반으로 각각의 새로운 이미지가 “고양이” 또는 “개”일 가능성을 나타내는 확률 점수를 할당할 수 있습니다.

ML이 인간의 마음보다 더 “간단”한 부분은 다음과 같습니다. 모델의 출력은 가중치가 부여된 입력을 합산하는 정의된 프로세스에서 나오는 반면 인간은 호르몬, 잠재의식적 편견 또는 즉각적인 신체적 요구와 같은 여러 요소를 뒤섞어 내부 프로세스를 훨씬 덜 투명하게 만듭니다.

따라서 모델 구축의 두 가지 핵심 단계는 다음과 같습니다.

훈련: 모델에 라벨이 붙은 데이터가 표시됩니다. 입력(예: 이미지 특징)을 출력(올바른 애완동물 라벨)에 연결하는 패턴을 “학습”합니다.
테스트: 우리는 보이지 않는 새로운 데이터(새로운 이미지)를 바탕으로 모델을 평가합니다. 고양이 그리고 개) 그것이 얼마나 잘 일반화되는지 측정합니다. 특정 이미지의 레이블이 지속적으로 잘못 지정되는 경우 생성된 출력의 정확성을 높이기 위해 매개변수를 조정하거나 더 많은 훈련 예제를 수집할 수 있습니다.

모든 것이 데이터로 돌아오므로 특히 다음과 같은 경우 모델링 부분에 더 많은 내용이 있을 수 있다는 점을 언급하는 것이 적절합니다.불균형 데이터.”

예: 훈련 세트에 5,000개가 있는 경우 개 이미지는 1,000개에 불과합니다. 고양이 이미지를 사용하는 경우 모델은 예측 쪽으로 기울어질 수 있습니다. 개 더 자주 — 신청하지 않는 한 특별한 기법 “라는 문제를 해결하기 위해불균형“. 그러나 이것은 완전히 새로운 게시물이 필요한 이야기입니다.

이러한 언급의 배경에는 가능한 각 결과(“고양이” 또는 “개” 이미지)에 대한 입력 데이터 세트의 예제 수가 모델 교육 프로세스의 복잡성과 출력 정확도에 영향을 미친다는 것입니다.

지속적인 조정과 인적 요소

그러나 겉으로는 단순해 보이지만 ML 파이프라인은 ‘실행 후 잊어버리는’ 방식이 아닙니다.

모델의 예측이 궤도를 벗어나기 시작하면(어쩌면 새로운 데이터로 인해 시나리오가 변경되었기 때문일 수도 있습니다.), 우리 재교육 그리고 미세 조정하다 시스템.

다시배후의 데이터 전문가는 어떻게 해야 할지 결정해야 합니다. 데이터 정리 또는 강화 그리고 모델 매개변수 재조정 모델 성능 지표를 개선합니다.

그게 바로 “재학습” 머신러닝에서요.

이것이 중요한 이유는 편견과 오류 데이터나 모델의 내용이 잘못된 결과로 이어질 수 있으며 실제 결과를 가져오다. 예를 들어 편향된 과거 데이터를 기반으로 학습된 신용 점수 모델은 특정 인구통계 그룹의 점수를 체계적으로 낮출 수 있습니다. 대출이나 재정적 기회를 부당하게 거부하는 행위.

본질적으로 인간은 여전히 훈련 기계 개선의 피드백 루프를 주도하여 ML/AI 모델이 진화하고 “작동”하는 방식을 형성합니다.

출처 참조