본문 바로가기
IT,SW,Data,Cloud,코딩

주성분분석(PCA)와 밀도기반 군집분석(DBSCAN)

by 착실하게 2022. 2. 22.
반응형

1. PCA 주성분분석.

주성분분석은 차원축소를 하는 여러 가지 방법 중 하나입니다.

고차원에서 일어나는 차원의 저주 문제를 피하기 위하여 고차원을 저차원으로 바꾸게 됩니다. 차원이 많을수록 모든 차원을 충족시킬 수 있는 방법을 찾기 어려워서 원하는 모델을 만들기가 어렵기 때문입니다.

PCA란, 기존 데이터의 정보를 최대한 살리면서 차원이 축소된 새로운 좌표 세계를 만들어서 표현하는 방법입니다.

이때 새로운 축은 기존의 변동을 가장 많이 반영하는 방향으로 잡아야 합니다. 이것이 PCA의 알고리즘입니다.

새로 잡은 차원에 대한 축은 서로 독립이며 직각이여야 합니다.

2. DBSCAN 밀도기반 군집분석.

밀도 기반으로 형태에 구애받지 않고 노이즈까지 잡아낼 수 있는 성능 좋은 알고리즘 입니다.

DBSCAN에서는 노이즈를 명확히 정의할 수 있다는 장점이 있습니다.

[DBSCAN 관련 용어 정리]
직접 접근 가능: P-Q인 P와 Q는 직접 접근가능한 관계.
접근 가능: P-R-Q 인 P와 Q는 다른 벡터를 통해 연결가능한 관계.
이웃벡터: 자신과 특정 거리 e 안에 있는 다른 벡터. 여기서 e는 사람이 정해줍니다.
핵심벡터: N개 이상의 이웃 벡터를 갖는 데이터 벡터. 여기서 N은 사람이 정해줍니다.
군집: 한 핵심 벡터 P에 대하여 접근가능한 모든 벡터들의 집합. 군집 내의 모든 벡터들은 연결 가능해야 한다.
노이즈: 어떠한 군집에도 속하지 않은 데이터. label 이 -1로 출력이 됩니다.

[K-means 클러스터링과의 비교]
DBSCAN
- 밀도기반
- 모든 형태 분석 가능
- 노이즈가 정의됨
- 직관적
- 프로그래밍으로 구현

K-menas
- 거리기반
- 원 또는 구 모양 형태 분석에 최적화됨
- 노이즈가 정의 안됨
- 수학적
- 컴퓨터가 없어도 계산으로 할 수 있음
  
[파이썬에서 DBSCAN 함수 관련]
core_sample_indices 의 속성은 여러 개의 군집 정보를 가지고 있지 않고, 군집을 포함하고는 있지만 yes/no 의 정보만 가지고 있습니다.

출력되는 lable은 군집의 번호이며 0 base 여서 0, 1, 2 ... 로 됩니다.



반응형

댓글