r
-
[R 데이터 분석] 연관성 분석 (Association Rules), 장바구니 분석머신러닝 with R 2019. 9. 8. 15:40
연관성 분석이란? 장바구니 분석 (Market Basket Analysis)이라고 불리며, 데이터를 통해 어떤 상품과 어떤 상품이 함께 팔리는 가를 분석함으로써 경향성을 파악한다. 이러한 연관성 분석은 매장 상품의 배치를 변경하거나, 특정 상품에 대한 묶음 판매, 혹은 이벤트나 쿠폰 등을 발행할 때 활용할 수 있다. 온라인에서는 추천 상품을 노출하는 등 다양한 마케팅 전략으로 사용될 수 있다. 연관성 분석을 통해 "연관규칙"을 생성하는데 조건과 반응 (if-then) 형식으로 규칙을 생성한다. if-then 규칙은 쉽게 예를 들어, "라면을 구매하는 사람의 15%가 동시에 치즈를 구매한다"라는 규칙을 말한다. 사전에 target 변수를 선택하지 않는 비지도 학습이며, 판매된 상품에 대한 분석을 실시함으로..
-
R 데이터 정제/ 결측치 및 이상치 제거하기머신러닝 with R 2019. 7. 18. 14:54
결측치(Missing Value) 란, 누락된 값, 비어있는 값을 의미하고 이러한 값은 함수 적용이 불가하며 분석 결과를 왜곡시킨다. 따라서 결측 값을 제거 후에 분석을 실시하는 게 좋다. 결측치는 보통 NA 라고 표기하며 작은따옴표나 큰 따옴표를 붙이지 않는다. 결측치를 확인할 때는 is.na(데이터프레임 명칭) ex) is.na(df) 결측치의 빈도를 출력할 때에는 table(is.na(데이터 프레임 명칭))이라는 함수를 사용한다. ex) table(is.na(df)) 결측치를 포함한 상태로 mean( ), sum( )과 같은 분석을 실시하면, 결과 값에 NA라고 뜨면서 제대로 값을 산출하지 못한다. 따라서 결측치가 있는 행을 제거한 후 분석을 실시해야 한다. 결측치를 제외 할 때에는 filter(!..
-
자유자재로 데이터 가공하기 1. 데이터 전처리 dplyr 패키지머신러닝 with R 2019. 7. 17. 18:02
데이터 전처리 (Preprocessing) - dplyr 패키지 바로 이전 포스팅한 글에서 설치한 dplyr 패키지는 데이터 전처리에 특화된 R의 패키지이다. 여기에는 다음과 같은 다양한 함수들이 포함되어 있다. 함수 기능 filter( ) 행 추출 select( ) 열(변수) 추출 arrange( ) 정렬 mutate( ) 변수 추출 summarise( ) 통계치 산출 group_by( ) 집단별로 나누기 left_join( ) 데이터 합치기 (열) bind_rows( ) 데이터 합치기 (행) csv_exam 파일을 exam에 넣어 데이터를 준비하고, 패키지를 로드한다. exam % filter(class == 1) # 1반 데이터만 추출 exam %>% filter(class == 2) exam %>..
-
R과 RStudio 설치하기 (Windows OS 기반)머신러닝 with R 2019. 6. 28. 22:17
R은 데이터 핸들링 & 통계 & 머신러닝 & 시각화를 위한 오픈소스 기반의 언어! 누구나 설치 가능: 개인, 연구, 상업용 멀티 OS 지원 : Windows, Mac, Linux RStudio는 유료 및 무료/ Server 및 Desktop 용 판매 1. https://cran.r-project.org/ 접속 The Comprehensive R Archive Network cran.r-project.org 2. 우측의 CRAN의 "Mirrors"선택. 3. Korea의 다섯가지 서버 중 서울시 : https://cran.seoul.go.kr/ 클릭. 4. 각자의 컴퓨터 OS에 맞는 버전 선택 5. BASE 클릭 6. Download R 3.6.0 for Windows 클릭 7. R설치 설치 언어 선택: ..