데이터분석
-
[R 데이터 분석] 연관성 분석 (Association Rules), 장바구니 분석머신러닝 with R 2019. 9. 8. 15:40
연관성 분석이란? 장바구니 분석 (Market Basket Analysis)이라고 불리며, 데이터를 통해 어떤 상품과 어떤 상품이 함께 팔리는 가를 분석함으로써 경향성을 파악한다. 이러한 연관성 분석은 매장 상품의 배치를 변경하거나, 특정 상품에 대한 묶음 판매, 혹은 이벤트나 쿠폰 등을 발행할 때 활용할 수 있다. 온라인에서는 추천 상품을 노출하는 등 다양한 마케팅 전략으로 사용될 수 있다. 연관성 분석을 통해 "연관규칙"을 생성하는데 조건과 반응 (if-then) 형식으로 규칙을 생성한다. if-then 규칙은 쉽게 예를 들어, "라면을 구매하는 사람의 15%가 동시에 치즈를 구매한다"라는 규칙을 말한다. 사전에 target 변수를 선택하지 않는 비지도 학습이며, 판매된 상품에 대한 분석을 실시함으로..
-
R 데이터 마이닝 '의사결정 나무 (Decision Tree)'란?머신러닝 with R 2019. 7. 23. 01:21
의사결정 나무 추론이란? 의사결정 나무 추론은 데이터 마이닝에서 대중적으로 사용하는 방법론이다. 의사결정규칙을 나무 구조로 도표화하여 분류(classification)와 추정(esimation)을 수행하는 분석 방법이다. 입력된 변수(x)를 바탕으로 목표 변수(y)의 값을 예측하는 모델을 생성하는 것이 목적이다. 의사결정나무는 규칙들을 표현하고 있으며, 이러한 규칙은 문장 형태로 표현될 수 있다. 신경망, 판별분석, 회귀분석보다 이해하기 쉽고 설명력이 높다는 특징이 있다. 의사결정 나무는 초등학생 때 누구나 한 번쯤 해본 '스무고개'와도 같다. 어떤 연속된 질문들에 대해 예/아니오로 대답함으로써 정답을 찾아 나가는 과정이다. 처음 질문의 답에 따라 다음 질문이 달라지는 것도 스무고개와 비슷하다고 볼 수 ..
-
R 데이터 정제/ 결측치 및 이상치 제거하기머신러닝 with R 2019. 7. 18. 14:54
결측치(Missing Value) 란, 누락된 값, 비어있는 값을 의미하고 이러한 값은 함수 적용이 불가하며 분석 결과를 왜곡시킨다. 따라서 결측 값을 제거 후에 분석을 실시하는 게 좋다. 결측치는 보통 NA 라고 표기하며 작은따옴표나 큰 따옴표를 붙이지 않는다. 결측치를 확인할 때는 is.na(데이터프레임 명칭) ex) is.na(df) 결측치의 빈도를 출력할 때에는 table(is.na(데이터 프레임 명칭))이라는 함수를 사용한다. ex) table(is.na(df)) 결측치를 포함한 상태로 mean( ), sum( )과 같은 분석을 실시하면, 결과 값에 NA라고 뜨면서 제대로 값을 산출하지 못한다. 따라서 결측치가 있는 행을 제거한 후 분석을 실시해야 한다. 결측치를 제외 할 때에는 filter(!..
-
자유자재로 데이터 가공하기 1. 데이터 전처리 dplyr 패키지머신러닝 with R 2019. 7. 17. 18:02
데이터 전처리 (Preprocessing) - dplyr 패키지 바로 이전 포스팅한 글에서 설치한 dplyr 패키지는 데이터 전처리에 특화된 R의 패키지이다. 여기에는 다음과 같은 다양한 함수들이 포함되어 있다. 함수 기능 filter( ) 행 추출 select( ) 열(변수) 추출 arrange( ) 정렬 mutate( ) 변수 추출 summarise( ) 통계치 산출 group_by( ) 집단별로 나누기 left_join( ) 데이터 합치기 (열) bind_rows( ) 데이터 합치기 (행) csv_exam 파일을 exam에 넣어 데이터를 준비하고, 패키지를 로드한다. exam % filter(class == 1) # 1반 데이터만 추출 exam %>% filter(class == 2) exam %>..
-
R 데이터 분석의 기초 2. 데이터 수정하기 / 변수 이름 바꾸기/ 파생 변수 생성/ 조건문 ifelse 활용 (예제 있음)머신러닝 with R 2019. 7. 16. 16:12
데이터 분석을 하는 데 있어서 가장 많은 시간을 투자해야 하는 부분이 데이터를 분석에 필요한 형태로 만드는 '데이터 전처리' 과정이다. R언어는 이러한 데이터 전처리를 위한 다양한 패키지를 제공하고 있는데, 그중, 데이터 프레임을 다루는 dplyr 패키지가 있다. 우선 dplyr 을 설치하고 로드한 후 데이터 프레임 내의 변수를 수정해보려고 한다. ggplot2 패키지 안에 있는 mpg 데이터의 변수명은 긴 단어를 짧게 줄인 축약어로 되어 있다. cty 변수는 도시 연비, hwy 변수는 고속도로 연비를 의미하는데, 이 변수명을 이해하기 쉬운 단어로 바꿔보자. [데이터 변수 이름 바꾸기] 1) ggplot2 패키지의 mpg데이터의 raw데이터를 손상시키지 않고 사용할 수 있도록 불러온 뒤 복사본을 만든다...
-
머신러닝(machine learning)과 R머신러닝 with R 2019. 6. 28. 19:13
정보의 바다라고 불리는 현대에 이제는 정확하고 퀄리티가 좋은 정보를 얻어내는 것이 능력이라고 하는 시대가 되었다. 데이터는 다양한 분야에서 수백, 수천, 수만, 수억,, 그리고 셀 수 없을 정도로 존재하고 있다. 이것을 가공하는 방법, 활용하는 방법을 통해 우리는 훨씬 더 우리의 삶과 밀접한 즉, 정말 필요한 데이터들만 쏙쏙 뽑아낼 수 있게 될 것이다. 머신러닝 (machine learning)은 우리말로 '기계 학습'이라고도 불린다. 말 그대로 기계가 스스로 학습 할 수 있도록 알고리즘을 개발하는 인공지능의 한 분야이다. 컴퓨터에게 데이터를 주면 컴퓨터가 스스로 그 데이터를 통해 패턴을 분석 및 학습하게 되고, 이후 새로운 데이터들이 들어와도 새로운 지식을 얻어 낼 수 있게 된다. 머신러닝은 결국 데이..