일부 데이터 샘플링 방법이 실패하는 이유
저자 :
(1) Andrew Draganov, Aarhus University 및 모든 저자는이 연구에 동등하게 기여했습니다.
(2) David Saulpic, Paris Cité & Cnrs University;
(3) Aarhus University의 Chris Schwiegelshohn.
링크 표
초록 및 1 소개
2 예선 및 관련 작업
2.1 샘플링 전략
2.2 기타 코어 세트 전략
2.3 데이터베이스 애플리케이션 용 코어셋
2.4 쿼드 트리 임베딩
빠른 코레 세트 3 개
4 스프레드의 영향 감소
4.1 조잡한 상체 계산
4.2 근사 솔루션에서 스프레드 감소까지
5 빠른 압축
5.1 경험적 분석의 목표와 범위
5.2 실험 설정
5.3 샘플링 전략 평가
5.4 스트리밍 설정 및 5.5 테이크 아웃
6 결론
7 승인
8 증명, 의사 코드 및 확장 및 8.1 복지 증명 3.2
8.2 k- 평균의 K- 메디안 감소
8.3 트리의 최적 비용 추정
8.4 알고리즘 연장 1
참조
5.3 샘플링 전략 평가
이론적으로 보장 된 방법. 먼저 빠른 코어 세트 알고리즘과 표준 감도 샘플링의 비교를 마무리합니다. 구체적으로, 테이블 4와 5의 마지막 열은 빠른 코어 세트 방법이 일관되게 낮은 왜곡의 압축을 생성한다는 것을 보여줍니다.
데이터 세트, m 스칼라 값 및 스트리밍 설정에서 보유합니다. 그럼에도 불구하고, 그림 1은 50에서 400까지의 k가 다양한 감도 샘플링에서 선형 둔화를 유발하지만 빠른 코어 세트 방법에 대한 로그 만 유래한다는 것을 보여줍니다. 이 분석은 섹션 4의 이론을 확인합니다-빠른 코어 세트는 감도 샘플링과 동등한 압축을 얻지 만 k에 대한 선형 런타임 의존성은 없습니다. 따라서 나머지 실험에 전통적인 감도 샘플링을 추가하지 않습니다.
속도 대 정확도. 이제 독자는 표 4의 나머지 열과 그림 2를 참조합니다. 여기서 M-Scalar 값을 스윕하여 데이터 세트 전체에 걸쳐 코어셋 크기의 영향을 보여줍니다. 가속화 된 샘플링 방법에 대한 차선 적 이론적 보장에도 불구하고, 우리는 실제로 실제 데이터 세트에서 경쟁적인 왜곡을 얻는 동시에 실제로 빠른 코어 세트보다 빠르게 실행된다는 것을 알 수 있습니다. 그러나 택시 및 스타 데이터 세트에서 균일 한 샘플링 휴식 – 택시는 포르토의 택시 타기의 2d 시작 위치에 해당하며 다양한 크기의 클러스터가 많으며 별은 슈팅 스타 이미지의 픽셀 값입니다 (대부분의 픽셀은 검은 색을 제외하고는 작은 흰색 픽셀 클러스터의 경우). 따라서 균일 한 샘플링에는 특이 치가 거의없고 일관된 클래스 크기가있는 잘 행동하는 데이터 세트가 필요합니다.
이를 확인하려면 표 4 및 그림 2의 인공 데이터 세트에 대한 이러한 샘플링 전략의 결과를 고려하십시오. 클러스터 크기와 분포의 불일치가 증가함에 따라 가속화 된 샘플링 방법이 증가합니다.
데이터 세트의 모든 외부 포인트를 캡처하는 데 어려움이 있습니다. 따라서, 그림 2는 런타임과 샘플 품질 사이의 명확한 상호 작용을 보여줍니다. 방법이 빠를수록 압축이 더 부서지기 쉽습니다.
균일 한 샘플링이 취성 할 것으로 예상되지만, 광 및 웰터급 코어 세트가 깨지는 원인이 무엇인지는 덜 분명 할 수 있습니다. 설명은 경량 코어 세트에 대해 간단합니다. 1- 평균 솔루션에 따라 샘플링하므로 평균과는 거리가 멀다는 점을 향해 편향됩니다. 따라서 간단한 반례로서, 경량 코어 세트는 데이터 세트의 질량 중심에 가까운 작은 클러스터를 놓칠 수 있습니다. 이것은 그림 3에서 볼 수 있으며, 여기서 가우스 혼합물 데이터 세트에서 경량 코어 세트 구성이 실패하는 예를 보여줍니다. 작은 원형 클러스터는 데이터 세트의 질량 중심에 가깝기 때문에 평균과의 거리에 따라 샘플링 할 때 누락됩니다.
우리는 표 7 에서이 관계의 전체 범위를 평가합니다. 여기서 우리는 Welterweight Coreset의 J 매개 변수 (근사 솔루션의 중심 수)와 Gaussian Mixture DataSet의 γ 파라미터 (더 높은 γ가 더 높은 클래스 불균형으로 이어짐) 사이의 상호 작용을 보여줍니다. 우리는 이것을“민감도 샘플링이 클래스 불균형을 처리 할 수 있기 전에 우리의 대략적인 솔루션이 얼마나 좋은가?”라는 질문에 대답 할 수 있습니다. 이를 위해, 모든 방법은 γ의 작은 값에 대해 낮은 왜곡을 가지지 만, γ가 자라면서 빠른 코어 세트 (그리고 더 큰 welterweight coresets는 더 큰 값에 대한 웰터급 코어 세트는 왜곡이 낮다는 것을 보장한다.
완전성을 위해, 우리는 이러한 결과가 그림 4에서 K- 미디어 작업에도 적용되는지 확인합니다. 데이터 세트 전체의 K-Median 왜곡이 K- 평균 왜곡과 일치하는지 확인합니다. 다양한 샘플링 스키마를 사용할 때 압축 품질의 무작위 특성을 강조하기 위해 5 개의 런 중 하나를 보여줍니다.
데이터 세트 분석을 마무리하기 위해 BICO는 Coreset Distortion Metric에서 일관되게 작동하지 않는다는 점에 유의합니다.[9]표 6에서 볼 수 있듯이, 우리는 또한 표 9의 인공 데이터 세트에서 m = 40K로 StreamKM ++ 방법을 분석하고 감도 샘플링과 비교하여 왜곡이 불량한 것을 알 수 있습니다. 이는 StreamKM ++의 필수 코어셋 크기 (N의 로그 및 D의 지수)에 기인하기 때문입니다. 차선책 크기, 왜곡 및 런타임으로 인해 표 4, 5에 StreamKM ++를 포함하지 않았습니다.
마지막으로, 우리는 모든 샘플링 방법이 벤치 마크 데이터 세트에서 잘 작동한다고 지적합니다. 벤치 마크 데이터 세트에서는 초기 솔루션에 대한 감도 샘플링의 의존을 명시 적으로 처벌하도록 설계되었습니다. 따라서 감도 샘플링을 중단하는 설정이 없음을 확인합니다.
우리는 이러한 압축 스키마가 표 8의 큰 데이터 세트에서 빠른 클러스터링을 얼마나 잘 촉진하는지를 보여줍니다. 큰 코어 세트 방분은 코어 세트에서 얻은 센터가 전체 데이터 세트를 제대로 나타내지 않음을 의미합니다. 그러나 왜곡이 적은 샘플링 방법 중에서도 지속적으로 ‘최고의’솔루션으로 이어지는 경우 일 수 있습니다. 이를 테스트하기 위해 Coreset Distortions가 일관된 실제 데이터 세트의 모든 빠른 방법에서 솔루션 품질을 비교합니다. 실제로, 표 8은 샘플링 방법이 일관되게 최소한의 솔루션으로 이어지는 것을 보여줍니다.
[9] 우리는 그림 2, 4, 5에 Bico 또는 StreamKM ++를 포함하지 않습니다. 왜냐하면 그들은 o ~ (nd) 복잡성 클래스에 빠지지 않으며 k- 평균을 위해서만 설계되었습니다.
Post Comment