뉴스 정보 뉴스 컴퓨터 소프트웨어 및 개발 xgboost, 기계 학습, 연산 Min-jun (민준) 4월 4, 2025 0 Comments

Xgboost 회귀 분석 알고리즘으로 AD보기 가능성을 예측합니다

데이터에서 통찰력을 추출하고 의사 결정 프로세스에서이를 활용하는 것도 점점 더 널리 퍼지고 있습니다. 오늘날이 접근법은 디지털 광고를 포함한 다양한 도메인에서 영향력있는 작업을 가능하게합니다. 디지털 광고의 세계에서 광고에 노출 된 사용자와 광고를 표시하는 플랫폼 간의 상호 작용은 매우 중요합니다.

광고주와 게시자 간의 일치는 수요 측면 플랫폼 (DSP) 및 SSP (Supply-Side Platforms)에서 밀리 초 이내에 수행 된 경매에 의해 촉진됩니다. 정확한 매칭은 사용자 만족도와 수익 관리 모두에 필수적입니다. 이와 관련하여 가장 중요한 KPI 중 하나는 광고보기 가능성.

올바른 청중에게 올바른 광고를 제공하는 것은 광고 예산 효율성을 극대화하고 사용자 만족도를 향상시키는 데 중요한 역할을합니다. 이 기사에서는 광고보기 성 속도를 예측하기위한 기계 학습 모델을 개발할 것입니다. 이 작업에 매우 효과적인 XGBoost regressor 알고리즘을 사용하겠습니다.

모델링 프로세스

1. 라이브러리 가져 오기

첫 번째 단계는 프로젝트에서 사용할 파이썬 라이브러리를 가져 오는 것입니다. 누락 된 라이브러리가 발생하면 라이브러리를 사용하여 설치해야합니다. pip install 명령.

2. 데이터 준비

다음으로 모델에서 사용할 데이터 세트를 가져옵니다.

데이터를 가져 오면 몇 가지 전처리 단계가 필요합니다. 예를 들어, creative_adsize AD 크기를 나타내는 변수는 초기에 범주 형 변수입니다 (예 : “640×480”). 그러나 AD 크기는 대상 변수에 크게 영향을 미치기 때문에이 기능이 광고 차원에 대한 모델의 이해를 향상시키기 위해이 기능을 숫자 형식으로 변환합니다.

또한 변수 값 내에서 특이 치를 식별하고 제거하고 변수의 특성에 따라 평균을 전가하거나 다른 적절한 방법을 적용하여 누락 데이터를 처리합니다.

우리는 또한 파생됩니다 month 그리고 day 계절적 효과와 달의 시작 또는 끝과 같은 요인이므로 날짜 기능의 변수는 AD 시청률에 영향을 줄 수 있습니다.

모델에 범주 형 변수를 포함시키기 위해 인코딩을 수행합니다.

한 가지 인코딩. 제한된 수의 범주가있는 변수에 적용됩니다. creative_typeSSP 및 device_type.
해시 인코딩. 브라우저 및와 같이 더 많은 수의 범주가있는 변수에 사용됩니다. ad_unit.

모델의 최종 기능 세트에는 다음이 포함됩니다.

열의 설명은 다음과 같습니다.

변수	설명
creative_adsize	광고의 크기.
Creative_type	예를 들어 이미지 또는 비디오와 같은 광고 유형.
ad_unit	웹 사이트에 광고의 배치 ID.
SSP	공급 측면 플랫폼.
브라우저	사용자의 웹 사이트 브라우저.
device_type	사용자의 장치 유형 (예 : 전화, 개인용 컴퓨터, 태블릿).
rate_viewability	이 모델의 대상 변수는 광고의 시청률을 보여줍니다.
월	사용자 방문 월.
낮	사용자 방문 당일.

3. 모델 훈련

인코딩 및 기능 엔지니어링 프로세스를 완료 한 후 데이터를 교육 및 테스트 세트로 나눕니다. 또한 XGBoost 알고리즘에는 모델의 일반화 능력을 향상시키기 위해 설계된 수많은 매개 변수가 포함되어 있습니다.

특정 데이터 세트 및 작업에 가장 적합한 매개 변수 값을 결정하려면 그리드 검색, 임의 검색 또는 베이지안 최적화와 같은 하이퍼 파라미터 최적화 방법을 사용할 수 있습니다. 이 방법은 다양한 매개 변수 조합을 체계적으로 탐색하여 모델 성능의 균형을 맞추고 과결을 방지하는 최적의 설정을 찾는 데 도움이됩니다.

4. 모델 성능 평가

모델의 성능을 평가하기 위해 우리는 같은 메트릭을 사용합니다 평균 제곱 오류 (MSE) 그리고 R².

R² 및 평균 제곱 오차 점수를 평가할 때 R² 값이 높고 평균 제곱 오차가 낮을 것으로 예상됩니다. 그러나 모델이 과적으로 적합 할 수 있으므로 지나치게 높은 R² 값이 항상 좋은 결과는 아닙니다. 이 측면도 고려해야하며,이 텍스트에서 과적으로 과적하고 부적합한 위험을 평가하는 방법에 대해 논의 할 것입니다.

0.74의 r² 값은 현재 우리 모델에 충분 해 보입니다. 우리의 MSE 값도 0.03이며 나쁘지 않습니다. 결과를 개선하기 위해 더 나은 성능을 위해 데이터 세트 크기를 늘리거나 새로운 기능을 추가하거나 미세 조정 모델 매개 변수를 추가 할 수 있습니다.

모델이 다른 샘플에서 일관되게 수행되도록하기 위해 K- 폴드 크로스 검증. 우리는 그것을 사용하여 k의 최적 값을 결정합니다 팔꿈치 방법k를 4로 설정합니다.