11 March 2023 / EXITEM, TIL

whiten

클러스터링에서 Whiten ?

데이터를 더욱 효과적으로 클러스터링하기 위해 whiten이라는 전처리 기술을 사용합니다.
- 클러스터링은 비슷한 특징을 가진 데이터들을 그룹으로 묶는 기술입니다.
whiten 처리를 하면 데이터의 스케일링과 정규화를 수행하고, 각 변수간의 상관관계를 줄입니다.
- 이렇게 처리된 데이터는 클러스터링 알고리즘에서 더욱 정확하게 작동하게 됩니다.
즉, whiten은 데이터를 변환하여 클러스터링 알고리즘의 성능을 높이는 기술입니다.

예시

이차원의 데이터가 주어질 때, 그대로 클러스터링 알고리즘에 적용하면, 각 변수의 범위와 분산이 다르기 때문에 올바른 클러스터링 결과를 얻기 어렵습니다. 따라서 whiten 처리를 수행하여 데이터를 반환합니다.

[[1, 2],
 [2, 4],
 [3, 6],
 [4, 8]]

데이터를 whiten 처리하면, 데이터의 분산이 모두 1이 되고, 각 변수간의 상관관계가 제거 됩니다. 이전의 데이터를 whiten 처리한 결과는 아래와 같습니다.

[[-1.34164079, -1.34164079],
 [ 0.        ,  0.        ],
 [ 1.34164079,  1.34164079],
 [ 2.68328157,  2.68328157]]

변수간의 상관관계가 없어지고 분산이 같아지기 때문에 더욱 정확한 클러스터링 결과를 얻을 수 있습니다.

—

whiten