군집분석
-
[R 데이터 분석] 밀도기반 군집분석 (DBSCAN, Density-Based Spatial Clustering of Applications with Noise)머신러닝 with R 2019. 9. 6. 14:35
밀도기반 군집분석(DBSCAN) 이란? 데이터의 위치 정보를 사용하여 군집 생성 밀도기반의 의미? 점들이 밀집된 곳을 하나의 군집으로 보는 것 노이즈 (아무 군집에도 들어가지 않는 데이터, 필요없는 값)을 제외시킴 어떠한 Dataset에 적합한가? 1) 군집의 크기가 다른 원형 데이터 셋 2) 블록 형태가 아닌 (nonconvex) 데이터 셋 3) 모양도 각기 다르고 노이즈가 있는 데이터 셋 --> 데이터셋 1,2,3 모두에 적합함 즉, k-means에서 만들지 못한 군집을 만들 수 있다. 크기가 각각 다르거나, 작거나, 다양한 기하학적 형태의 군집도 잘 분류 할 수 있다. 주요 파라미터 ε- 거리(eps): 하나의 개체를 중심으로 eps 거리 내 몇개의 점이 있는지 파악. 이 숫자가 정해진 밀도보다 크..
-
[R 데이터 분석] 군집분석의 이해 :: 군집을 묶는 기준 '거리' / 군집분석의 평가머신러닝 with R 2019. 8. 30. 16:54
군집 분석이란 모집단 또는 범주에 대한 사전 정보가 없는 경우에 주어진 관측값(레코드)들 사이의 거리 또는 유사성을 이용하여 전체를 몇개의 집단으로 나누는 분석이라고 할 수 있다 . 쉽게 말해 하나의 집단을 특성이 유사한 몇 개의 세부 집단으로 나누는 것이다. 위 사진을 보면 군집 분석에 대해 확실히 감을 잡을 수 있다. 중고등학생 시절을 되돌아 보면, 교탁앞에는 공부를 열심히하는 친구들이 주로 앉고, 뒷쪽 구석에는 공부에 관심없는 친구들이 모여 앉곤 한다. 이렇게 비슷한 성향의 사람들이 모여 앉아 그룹을 만드는데 군집 분석도 마찬가지로 주어진 개체를 비슷한 속성끼리 그룹화 시키는 것이다. 이렇게 세부적으로 그룹화 시키게 되면 , 각 집단의 성격을 파악하기 쉽고, 데이터 전체의 구조에 대한 이해를 도울 ..