분류 전체보기
-
R 데이터 정제/ 결측치 및 이상치 제거하기머신러닝 with R 2019. 7. 18. 14:54
결측치(Missing Value) 란, 누락된 값, 비어있는 값을 의미하고 이러한 값은 함수 적용이 불가하며 분석 결과를 왜곡시킨다. 따라서 결측 값을 제거 후에 분석을 실시하는 게 좋다. 결측치는 보통 NA 라고 표기하며 작은따옴표나 큰 따옴표를 붙이지 않는다. 결측치를 확인할 때는 is.na(데이터프레임 명칭) ex) is.na(df) 결측치의 빈도를 출력할 때에는 table(is.na(데이터 프레임 명칭))이라는 함수를 사용한다. ex) table(is.na(df)) 결측치를 포함한 상태로 mean( ), sum( )과 같은 분석을 실시하면, 결과 값에 NA라고 뜨면서 제대로 값을 산출하지 못한다. 따라서 결측치가 있는 행을 제거한 후 분석을 실시해야 한다. 결측치를 제외 할 때에는 filter(!..
-
자유자재로 데이터 가공하기2. 데이터 전처리/ dplyr 패키지/mpg 데이터 심화 활용머신러닝 with R 2019. 7. 18. 12:24
이번 포스팅에서는 ggplot2 에서 기본으로 제공하는 mpg 데이터를 활용하여 이전 시간에 배운 dplyr 패키지 함수들을 활용하여 복습해보려고 한다. [filter 함수 활용] 1) displ (배기량)이 4이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 hwy(고속 도로 연비)가 평균적으로 높은지 알아보자. displ1 % filter(displ =5) #배기량이 5이상인 데이터를 추출해 displ2에 할당 mean(displ1$hwy) #배기량이 4이하인 데이터의 고속도로 연비 평균값 mean(displ2$hwy) #배기량이 5이상인 데이터의 고속도로 연비 평균값 배기량이 4이하인 자동차의 hwy의 평균값은 25.96319 이고 5이상인 자동차의 hwy의 평균값은 18.07895로 배기량이 4..
-
자유자재로 데이터 가공하기 1. 데이터 전처리 dplyr 패키지머신러닝 with R 2019. 7. 17. 18:02
데이터 전처리 (Preprocessing) - dplyr 패키지 바로 이전 포스팅한 글에서 설치한 dplyr 패키지는 데이터 전처리에 특화된 R의 패키지이다. 여기에는 다음과 같은 다양한 함수들이 포함되어 있다. 함수 기능 filter( ) 행 추출 select( ) 열(변수) 추출 arrange( ) 정렬 mutate( ) 변수 추출 summarise( ) 통계치 산출 group_by( ) 집단별로 나누기 left_join( ) 데이터 합치기 (열) bind_rows( ) 데이터 합치기 (행) csv_exam 파일을 exam에 넣어 데이터를 준비하고, 패키지를 로드한다. exam % filter(class == 1) # 1반 데이터만 추출 exam %>% filter(class == 2) exam %>..
-
R 데이터 분석의 기초 2. 데이터 수정하기 / 변수 이름 바꾸기/ 파생 변수 생성/ 조건문 ifelse 활용 (예제 있음)머신러닝 with R 2019. 7. 16. 16:12
데이터 분석을 하는 데 있어서 가장 많은 시간을 투자해야 하는 부분이 데이터를 분석에 필요한 형태로 만드는 '데이터 전처리' 과정이다. R언어는 이러한 데이터 전처리를 위한 다양한 패키지를 제공하고 있는데, 그중, 데이터 프레임을 다루는 dplyr 패키지가 있다. 우선 dplyr 을 설치하고 로드한 후 데이터 프레임 내의 변수를 수정해보려고 한다. ggplot2 패키지 안에 있는 mpg 데이터의 변수명은 긴 단어를 짧게 줄인 축약어로 되어 있다. cty 변수는 도시 연비, hwy 변수는 고속도로 연비를 의미하는데, 이 변수명을 이해하기 쉬운 단어로 바꿔보자. [데이터 변수 이름 바꾸기] 1) ggplot2 패키지의 mpg데이터의 raw데이터를 손상시키지 않고 사용할 수 있도록 불러온 뒤 복사본을 만든다...
-
R 데이터 분석의 기초 1. 데이터 파악하기 - head/tail/dim/View/str/summary머신러닝 with R 2019. 7. 16. 00:59
데이터 분석이 중요한 이유는 무엇일까? 우리는 넘쳐나는 정보의 시대, 빅데이터 시대에서 살고 있다. 구글에 R 이라는 단어만 검색해도 R에 대한 설명은 쉽게 찾아 볼 수 있다. '구글링 (googling)' 이라는 단어가 생긴 것 처럼, 이제는 인터넷을 검색하면 모든 정보를 알아낼 수 있는 것이다. 따라서 정보의 양보다, 질이 훨씬 더 중요하게 되었다. 내가 가진 정보들이 얼마나 타당한지, 얼마나 정확한지 등 데이터의 품질을 파악하는 것이 데이터 분석의 하나의 목적인 것이다. R에는 이런 데이터를 파악하는 함수를 기본적으로 제공하고 있다. 이러한 것들을 잘 활용한다면 어마어마한 양의 데이터를 파악하기 쉽게, 다루기 쉽게 수정할 수 있을 것이다. 함수 기능 head( ) 데이터 앞부분 6개를 출력 tail..
-
R 데이터 프레임 (Data Frame) / 엑셀, csv 데이터 불러오기 / 데이터 저장하기 / RData (.rda) 파일머신러닝 with R 2019. 7. 1. 15:21
[데이터 프레임 이란?] 데이터 프레임(data.frame)은 R에서 가장 많이 쓰이는 데이터 구조이다. 데이터 프레임은 행과 열을 가지는 표 형식으로 숫자나 문자 상관없이 다양한 형식의 데이터를 담을 수 있다. 이름 영어점수 수학점수 반 김지훈 90 50 1 이유진 80 60 1 박동현 60 100 2 김민지 70 20 2 위 데이터를 입력해 데이터 프레임을 만들어 본 후 결과를 확인해 보자. 데이터 프레임을 만드는 함수는 data.frame( ) 이다. 데이터 프레임을 변수에 할당할 때에는 df_ 를 사용하여 명시해주면 구분이 쉽다. 데이터 프레임은 따로 패키지를 다운로드하거나 로드하지 않아도 기본적으로 사용할 수 있다. english
-
데이터 분석을 위한 연장 3 - 패키지(packages)머신러닝 with R 2019. 6. 30. 17:47
패키지는 간단히 말해서 함수들의 꾸러미이다. 하나의 패키지 안에는 다양한 함수가 들어있으며, 함수를 사용하기 위해서는 그 함수가 포함된 패키지를 설치해야 한다. 예시로 R의 시각화에서 빠지지 않는다는 "ggplot2"라는 패키지를 설치해보자. install.packages("ggplot2") library("ggplot2") install.packages("패키지 명칭") 명령을 통해 원하는 패키지를 설치한 후 library( )로 패키지를 로드해야 포함된 함수를 사용할 수 있다. 에러 없이 로드가 된다면 설치가 잘 된 것이다. 필자는 처음 설치할 때 다음과 같은 메시지가 뜨면서 오류가 났다. 처음에는 경로 때문에 설치가 안 되는 줄 알았는데, 구글링을 통해 관리자 권한으로 실행시켜 보면 된다고 해서 따..
-
데이터 분석을 위한 연장 2 - 함수 (function)머신러닝 with R 2019. 6. 30. 16:56
변수에 대해 이해했다면, 다음으로는 함수에 대해 공부할 차례이다. 함수는 쉽게 말해서 값을 넣으면 특정한 기능을 수행해 처음과 다른 값이 출력되는 일을 한다. R은 다양한 내장 함수들을 가지고 있는데, 이 함수들을 이용해 원하는 값을 쉽게 구할 수 있다. 예를 들어 1, 2, 3 의 평균을 구하기 위해서는 (1+2+3)/3 라는 수식을 사용해야 한다. 하지만 R은 mean() 함수를 가지고 있어 훨씬 간단하게 계산할 수 있다. 아래 예시 코드에서 숫자를 다루는 함수를 살펴보자! x