일부 데이터 샘플링 방법이 실패하는 이유

일부 데이터 샘플링 방법이 실패하는 이유

저자 :

(1) Andrew Draganov, Aarhus University 및 모든 저자는이 연구에 동등하게 기여했습니다.

(2) David Saulpic, Paris Cité & Cnrs University;

(3) Aarhus University의 Chris Schwiegelshohn.

초록 및 1 소개

2 예선 및 관련 작업

2.1 샘플링 전략

2.2 기타 코어 세트 전략

2.3 데이터베이스 애플리케이션 용 코어셋

2.4 쿼드 트리 임베딩

빠른 코레 세트 3 개

4 스프레드의 영향 감소

4.1 조잡한 상체 계산

4.2 근사 솔루션에서 스프레드 감소까지

5 빠른 압축

5.1 경험적 분석의 목표와 범위

5.2 실험 설정

5.3 샘플링 전략 평가

5.4 스트리밍 설정 및 5.5 테이크 아웃

6 결론

7 승인

8 증명, 의사 코드 및 확장 및 8.1 복지 증명 3.2

8.2 k- 평균의 K- 메디안 감소

8.3 트리의 최적 비용 추정

8.4 알고리즘 연장 1

참조

5.3 샘플링 전략 평가

이론적으로 보장 된 방법. 먼저 빠른 코어 세트 알고리즘과 표준 감도 샘플링의 비교를 마무리합니다. 구체적으로, 테이블 4와 5의 마지막 열은 빠른 코어 세트 방법이 일관되게 낮은 왜곡의 압축을 생성한다는 것을 보여줍니다.

그림 2 : 상단 : 실제 데이터 세트에 대한 Coreset 왜곡에 대한 M- 스칼라의 영향. 이것은 표 4의 데이터를 시각화 한 것입니다. 하단 : 실제 데이터 세트에 대한 알고리즘 런타임에 대한 m- 스칼라의 효과. 모든 값은 평균 5 개 이상의 실행입니다. 3 개의 막대는 크기 M = 40k, 80k의 샘플을 나타냅니다.그림 2 : 상단 : 실제 데이터 세트에 대한 Coreset 왜곡에 대한 M- 스칼라의 영향. 이것은 표 4의 데이터를 시각화 한 것입니다. 하단 : 실제 데이터 세트에 대한 알고리즘 런타임에 대한 m- 스칼라의 효과. 모든 값은 평균 5 개 이상의 실행입니다. 3 개의 막대는 크기 M = 40k, 80k의 샘플을 나타냅니다.

데이터 세트, m 스칼라 값 및 스트리밍 설정에서 보유합니다. 그럼에도 불구하고, 그림 1은 50에서 400까지의 k가 다양한 감도 샘플링에서 선형 둔화를 유발하지만 빠른 코어 세트 방법에 대한 로그 만 유래한다는 것을 보여줍니다. 이 분석은 섹션 4의 이론을 확인합니다-빠른 코어 세트는 감도 샘플링과 동등한 압축을 얻지 만 k에 대한 선형 런타임 의존성은 없습니다. 따라서 나머지 실험에 전통적인 감도 샘플링을 추가하지 않습니다.

속도 대 정확도. 이제 독자는 표 4의 나머지 열과 그림 2를 참조합니다. 여기서 M-Scalar 값을 스윕하여 데이터 세트 전체에 걸쳐 코어셋 크기의 영향을 보여줍니다. 가속화 된 샘플링 방법에 대한 차선 적 이론적 보장에도 불구하고, 우리는 실제로 실제 데이터 세트에서 경쟁적인 왜곡을 얻는 동시에 실제로 빠른 코어 세트보다 빠르게 실행된다는 것을 알 수 있습니다. 그러나 택시 및 스타 데이터 세트에서 균일 한 샘플링 휴식 – 택시는 포르토의 택시 타기의 2d 시작 위치에 해당하며 다양한 크기의 클러스터가 많으며 별은 슈팅 스타 이미지의 픽셀 값입니다 (대부분의 픽셀은 검은 색을 제외하고는 작은 흰색 픽셀 클러스터의 경우). 따라서 균일 한 샘플링에는 특이 치가 거의없고 일관된 클래스 크기가있는 잘 행동하는 데이터 세트가 필요합니다.

이를 확인하려면 표 4 및 그림 2의 인공 데이터 세트에 대한 이러한 샘플링 전략의 결과를 고려하십시오. 클러스터 크기와 분포의 불일치가 증가함에 따라 가속화 된 샘플링 방법이 증가합니다.

그림 3 : 크기가 다양한 클러스터를 갖는 n = 100k 포인트의 2D 가우스 혼합물 데이터 세트에서 경량 및 빠른 코어 세트 구성 결과. 원형 클러스터는 ~ 400 포인트를 가지며 코어 세트는 200 점을 가지고 있습니다. 왼쪽 : 원래 다변량 가우시안 데이터 세트. 중간 : 경량 코어 세트는 ~ 400 포인트의 클러스터를 캡처하지 못합니다. 오른쪽 : J = K를 사용한 감도 샘플링은 모든 클러스터를 식별합니다.그림 3 : 크기가 다양한 클러스터를 갖는 n = 100k 포인트의 2D 가우스 혼합물 데이터 세트에서 경량 및 빠른 코어 세트 구성 결과. 원형 클러스터는 ~ 400 포인트를 가지며 코어 세트는 200 점을 가지고 있습니다. 왼쪽 : 원래 다변량 가우시안 데이터 세트. 중간 : 경량 코어 세트는 ~ 400 포인트의 클러스터를 캡처하지 못합니다. 오른쪽 : J = K를 사용한 감도 샘플링은 모든 클러스터를 식별합니다.

데이터 세트의 모든 외부 포인트를 캡처하는 데 어려움이 있습니다. 따라서, 그림 2는 런타임과 샘플 품질 사이의 명확한 상호 작용을 보여줍니다. 방법이 빠를수록 압축이 더 부서지기 쉽습니다.

균일 한 샘플링이 취성 할 것으로 예상되지만, 광 및 웰터급 코어 세트가 깨지는 원인이 무엇인지는 덜 분명 할 수 있습니다. 설명은 경량 코어 세트에 대해 간단합니다. 1- 평균 솔루션에 따라 샘플링하므로 평균과는 거리가 멀다는 점을 향해 편향됩니다. 따라서 간단한 반례로서, 경량 코어 세트는 데이터 세트의 질량 중심에 가까운 작은 클러스터를 놓칠 수 있습니다. 이것은 그림 3에서 볼 수 있으며, 여기서 가우스 혼합물 데이터 세트에서 경량 코어 세트 구성이 실패하는 예를 보여줍니다. 작은 원형 클러스터는 데이터 세트의 질량 중심에 가깝기 때문에 평균과의 거리에 따라 샘플링 할 때 누락됩니다.

표 7 : 가우스 혼합물 데이터 세트에서 γ가 코어 세트 왜곡에 미치는 영향. 우리는 5 가지가 넘는 임의의 데이터 세트 세대를 가한 평균을보고합니다. 각 세대는 50 치수에서 50,000 포인트를 가졌으며 50 개의 가우스 클러스터와 크기 4 000의 코어셋이 있습니다. 우리는 K = 100을 설정했습니다.표 7 : 가우스 혼합물 데이터 세트에서 γ가 코어 세트 왜곡에 미치는 영향. 우리는 5 가지가 넘는 임의의 데이터 세트 세대를 가한 평균을보고합니다. 각 세대는 50 치수에서 50,000 포인트를 가졌으며 50 개의 가우스 클러스터와 크기 4 000의 코어셋이 있습니다. 우리는 K = 100을 설정했습니다.

표 8 : 비용 (P, CS), 여기서 P는 전체 데이터 세트이고 CS는 k-means ++를 통해 발견됩니다.[2, 23] (k = 50) 및 코레스셋의 Lloyd의 알고리즘. 샘플 크기는 처음 두 행의 경우 M = 4,000이고 나머지 크기의 경우 M = 20 000입니다. 초기화는 각 행 내에서 동일합니다. 가독성 비용의 첫 3 자리를 보여줍니다.표 8 : 비용 (P, CS), 여기서 P는 전체 데이터 세트이고 CS는 k-means ++를 통해 발견됩니다.[2, 23] (k = 50) 및 코레스셋의 Lloyd의 알고리즘. 샘플 크기는 처음 두 행의 경우 M = 4,000이고 나머지 크기의 경우 M = 20 000입니다. 초기화는 각 행 내에서 동일합니다. 가독성 비용의 첫 3 자리를 보여줍니다.

우리는 표 7 에서이 관계의 전체 범위를 평가합니다. 여기서 우리는 Welterweight Coreset의 J 매개 변수 (근사 솔루션의 중심 수)와 Gaussian Mixture DataSet의 γ 파라미터 (더 높은 γ가 더 높은 클래스 불균형으로 이어짐) 사이의 상호 작용을 보여줍니다. 우리는 이것을“민감도 샘플링이 클래스 불균형을 처리 할 수 ​​있기 전에 우리의 대략적인 솔루션이 얼마나 좋은가?”라는 질문에 대답 할 수 있습니다. 이를 위해, 모든 방법은 γ의 작은 값에 대해 낮은 왜곡을 가지지 만, γ가 자라면서 빠른 코어 세트 (그리고 더 큰 welterweight coresets는 더 큰 값에 대한 웰터급 코어 세트는 왜곡이 낮다는 것을 보장한다.

그림 4 : 각 데이터 세트에서 한 번의 실행에 대한 k-median의 샘플 코어셋 왜곡. 각 데이터 세트 내의 막대는 M = 40k, 60k, 80k에 해당합니다.그림 4 : 각 데이터 세트에서 한 번의 실행에 대한 k-median의 샘플 코어셋 왜곡. 각 데이터 세트 내의 막대는 M = 40k, 60k, 80k에 해당합니다.

표 9 : 인공 데이터 세트에서 StreamKM ++의 왜곡.표 9 : 인공 데이터 세트에서 StreamKM ++의 왜곡.

완전성을 위해, 우리는 이러한 결과가 그림 4에서 K- 미디어 작업에도 적용되는지 확인합니다. 데이터 세트 전체의 K-Median 왜곡이 K- 평균 왜곡과 일치하는지 확인합니다. 다양한 샘플링 스키마를 사용할 때 압축 품질의 무작위 특성을 강조하기 위해 5 개의 런 중 하나를 보여줍니다.

데이터 세트 분석을 마무리하기 위해 BICO는 Coreset Distortion Metric에서 일관되게 작동하지 않는다는 점에 유의합니다.[9]표 6에서 볼 수 있듯이, 우리는 또한 표 9의 인공 데이터 세트에서 m = 40K로 StreamKM ++ 방법을 분석하고 감도 샘플링과 비교하여 왜곡이 불량한 것을 알 수 있습니다. 이는 StreamKM ++의 필수 코어셋 크기 (N의 로그 및 D의 지수)에 기인하기 때문입니다. 차선책 크기, 왜곡 및 런타임으로 인해 표 4, 5에 StreamKM ++를 포함하지 않았습니다.

마지막으로, 우리는 모든 샘플링 방법이 벤치 마크 데이터 세트에서 잘 작동한다고 지적합니다. 벤치 마크 데이터 세트에서는 초기 솔루션에 대한 감도 샘플링의 의존을 명시 적으로 처벌하도록 설계되었습니다. 따라서 감도 샘플링을 중단하는 설정이 없음을 확인합니다.

우리는 이러한 압축 스키마가 표 8의 큰 데이터 세트에서 빠른 클러스터링을 얼마나 잘 촉진하는지를 보여줍니다. 큰 코어 세트 방분은 코어 세트에서 얻은 센터가 전체 데이터 세트를 제대로 나타내지 않음을 의미합니다. 그러나 왜곡이 적은 샘플링 방법 중에서도 지속적으로 ‘최고의’솔루션으로 이어지는 경우 일 수 있습니다. 이를 테스트하기 위해 Coreset Distortions가 일관된 실제 데이터 세트의 모든 빠른 방법에서 솔루션 품질을 비교합니다. 실제로, 표 8은 샘플링 방법이 일관되게 최소한의 솔루션으로 이어지는 것을 보여줍니다.


[9] 우리는 그림 2, 4, 5에 Bico 또는 StreamKM ++를 포함하지 않습니다. 왜냐하면 그들은 o ~ (nd) 복잡성 클래스에 빠지지 않으며 k- 평균을 위해서만 설계되었습니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다