분류 전체보기
-
[R 데이터 분석] 최근접 이웃 (K-Nearest Neighbor, KNN) 분석머신러닝 with R 2019. 9. 15. 19:49
최근접 이웃 분석이란? '유유상종' 의 의미를 연상하면 된다. 입력 변수간의 거리를 구하여 가장 가까운 k개의 데이터를 최근접 이웃으로 정하고, 이를 기반으로 목표변수의 범주를 정하는 알고리즘이다. KNN 분석은 어떻게 보면 k-means 분석과 비슷해 보일 수 있는데 둘은 완전 다른 알고리즘이다. k-means는 군집을 위한 알고리즘이고 KNN은 분류를 위한 알고리즘이라고 보면 된다. 군집분석을 통해서 우리가 알고 싶은 변수가 정확해진 후, 그것을 분류해 내는 것이 의미가 있다면, 그 때 카테고리 중 하나를 target으로 정의해서 이후 분류 알고리즘을 적용한다. 군집분석은 탐색적인 목적으로 분류 알고리즘을 사용하기 전에 어떤 데이터 집단이 있는지 확인할 때 많이 사용 된다. *** 군집 분석과 분류의..
-
[R 데이터 분석] 연관성 분석 (Association Rules), 장바구니 분석머신러닝 with R 2019. 9. 8. 15:40
연관성 분석이란? 장바구니 분석 (Market Basket Analysis)이라고 불리며, 데이터를 통해 어떤 상품과 어떤 상품이 함께 팔리는 가를 분석함으로써 경향성을 파악한다. 이러한 연관성 분석은 매장 상품의 배치를 변경하거나, 특정 상품에 대한 묶음 판매, 혹은 이벤트나 쿠폰 등을 발행할 때 활용할 수 있다. 온라인에서는 추천 상품을 노출하는 등 다양한 마케팅 전략으로 사용될 수 있다. 연관성 분석을 통해 "연관규칙"을 생성하는데 조건과 반응 (if-then) 형식으로 규칙을 생성한다. if-then 규칙은 쉽게 예를 들어, "라면을 구매하는 사람의 15%가 동시에 치즈를 구매한다"라는 규칙을 말한다. 사전에 target 변수를 선택하지 않는 비지도 학습이며, 판매된 상품에 대한 분석을 실시함으로..
-
[R 데이터 분석] 밀도기반 군집분석 (DBSCAN, Density-Based Spatial Clustering of Applications with Noise)머신러닝 with R 2019. 9. 6. 14:35
밀도기반 군집분석(DBSCAN) 이란? 데이터의 위치 정보를 사용하여 군집 생성 밀도기반의 의미? 점들이 밀집된 곳을 하나의 군집으로 보는 것 노이즈 (아무 군집에도 들어가지 않는 데이터, 필요없는 값)을 제외시킴 어떠한 Dataset에 적합한가? 1) 군집의 크기가 다른 원형 데이터 셋 2) 블록 형태가 아닌 (nonconvex) 데이터 셋 3) 모양도 각기 다르고 노이즈가 있는 데이터 셋 --> 데이터셋 1,2,3 모두에 적합함 즉, k-means에서 만들지 못한 군집을 만들 수 있다. 크기가 각각 다르거나, 작거나, 다양한 기하학적 형태의 군집도 잘 분류 할 수 있다. 주요 파라미터 ε- 거리(eps): 하나의 개체를 중심으로 eps 거리 내 몇개의 점이 있는지 파악. 이 숫자가 정해진 밀도보다 크..
-
[R 데이터분석] k - 평균(k-means) 군집 분석머신러닝 with R 2019. 9. 2. 16:15
k-평균(k-means algorithm) 군집 분석이란? 주어진 데이터를 k 개의 클러스터(군집)로 묶는 알고리즘 "k"는 각 데이터 점들의 서로에 대한 유사성을 기초로 한 고정된 수(k)의 군집을 찾는 다는 것을 의미함 각 클러스터간의 거리 차이의 분산을 최소화 EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가짐 K-평균 알고리즘의 3단계 1) 임의로 k개의 데이터 포인트를 시드로 선택 2) 각각의 레코드를 가장 가까운 시드에 배정하여 묶음. (각 개체들과 시드 간의 거리를 구함) 3) 군집의 중심점을 찾아감 → 군집의 중심점이 다음 2단계에서 시드가 됨. → 2와 3 단계가 계속 반복됨. → 군집의 경계가 더 이상 변하지 않을 때까지 계속 됨. k-평균 알고리즘의 예시 1) 프로세스 1: 군집수..
-
[R 데이터 분석] 계층적 군집분석머신러닝 with R 2019. 8. 31. 15:13
계층적 군집분석(Hierarchical Clustering)이란? 계층적 트리 모형을 이용해 개별 개체들을 순차적, 계층적으로 유사한 개체 내지 그룹과 통합하여 군집화를 수행하는 알고리즘이다. K-평균 군집과 달리 군집 수를 사전에 정의하지 않고, 학습 이후 군집수를 선택한다. 개체들이 결합되는 순서는 덴드로그램(Dendrogram)으로 시각화할 수 있어, 덴드로그램을 만들고 적절하게 트리를 잘라 군집을 나눌 수 있다. 어떻게 만들 수 있을까? 2) 가장 가까운 집단 찾기 거리는 수가 작을 수록 가깝고 클수록 멀다. -> A와 D의 거리가 2로 가장 가깝고, B와 D의 거리가 가장 멈 가장 가까운 집단을 묶는다. -> A와 D를 하나로 묶어줌. 그렇다면 나머지 값들과의 거리는?? 어떻게 할 것인가? 3)..
-
[R 데이터 분석] 군집분석의 이해 :: 군집을 묶는 기준 '거리' / 군집분석의 평가머신러닝 with R 2019. 8. 30. 16:54
군집 분석이란 모집단 또는 범주에 대한 사전 정보가 없는 경우에 주어진 관측값(레코드)들 사이의 거리 또는 유사성을 이용하여 전체를 몇개의 집단으로 나누는 분석이라고 할 수 있다 . 쉽게 말해 하나의 집단을 특성이 유사한 몇 개의 세부 집단으로 나누는 것이다. 위 사진을 보면 군집 분석에 대해 확실히 감을 잡을 수 있다. 중고등학생 시절을 되돌아 보면, 교탁앞에는 공부를 열심히하는 친구들이 주로 앉고, 뒷쪽 구석에는 공부에 관심없는 친구들이 모여 앉곤 한다. 이렇게 비슷한 성향의 사람들이 모여 앉아 그룹을 만드는데 군집 분석도 마찬가지로 주어진 개체를 비슷한 속성끼리 그룹화 시키는 것이다. 이렇게 세부적으로 그룹화 시키게 되면 , 각 집단의 성격을 파악하기 쉽고, 데이터 전체의 구조에 대한 이해를 도울 ..
-
공간정보 / 데이터 수집 사이트 정리GIS 2019. 8. 24. 19:17
해외사이트 1. NASA의 EARTHDATA - https://earthdata.nasa.gov/ Earthdata The Earth Observing System Data and Information System is a key core capability in NASA’s Earth Science Data Systems Program. It provides end-to-end capabilities for managing NASA’s Earth science data from various sources—satellites, aircraft, field measur earthdata.nasa.gov 회원가입하면 무료로 전 세계의 DEM 이미지를 얻을 수 있다. DEM은 Aster Global Digi..
-
2019 스마트 국토 엑스포 (19.8.7~ 9) 관람 후기 :: 디지털 트윈(Digital Twin)은 또 무엇인가GIS 2019. 8. 24. 18:31
2019년 8월 7일부터 9일까지 삼성 코엑스에서 '스마트 국토 엑스포'가 열렸다. 이번 달 인턴을 하게 된 연구실의 지도 교수님께서 한번 가보라며 정보를 주신 덕에 눈이 번뜩이는 경험을 할 수 있었다. 스마트 국토 엑스포는 공간 정보 산업의 발전을 위한 행사로 2008년 부터 이어져 온 박람회라고 한다. 학부생 때 재미있게 수강 했던 '지리정보시스템' 과목이 있었는데 말그대로 GIS(Geographic Information Systems)를 배우는 수업이었다. 이때 공간 정보의 중요성과 무궁무진한 활용 가능성을 맛보았는데 이번에 엑스포에 다녀 온 후 내가 상상했던 것보다 훨씬 더! 다양한 분야에서 사용 중에 있고, 사용 될 수 있다는 것을 깨달았다. 엑스포에서 주최하는 여러 컨퍼런스에 참여하면서 "디지..