R언어
-
자유자재로 데이터 가공하기 1. 데이터 전처리 dplyr 패키지머신러닝 with R 2019. 7. 17. 18:02
데이터 전처리 (Preprocessing) - dplyr 패키지 바로 이전 포스팅한 글에서 설치한 dplyr 패키지는 데이터 전처리에 특화된 R의 패키지이다. 여기에는 다음과 같은 다양한 함수들이 포함되어 있다. 함수 기능 filter( ) 행 추출 select( ) 열(변수) 추출 arrange( ) 정렬 mutate( ) 변수 추출 summarise( ) 통계치 산출 group_by( ) 집단별로 나누기 left_join( ) 데이터 합치기 (열) bind_rows( ) 데이터 합치기 (행) csv_exam 파일을 exam에 넣어 데이터를 준비하고, 패키지를 로드한다. exam % filter(class == 1) # 1반 데이터만 추출 exam %>% filter(class == 2) exam %>..
-
R 데이터 분석의 기초 2. 데이터 수정하기 / 변수 이름 바꾸기/ 파생 변수 생성/ 조건문 ifelse 활용 (예제 있음)머신러닝 with R 2019. 7. 16. 16:12
데이터 분석을 하는 데 있어서 가장 많은 시간을 투자해야 하는 부분이 데이터를 분석에 필요한 형태로 만드는 '데이터 전처리' 과정이다. R언어는 이러한 데이터 전처리를 위한 다양한 패키지를 제공하고 있는데, 그중, 데이터 프레임을 다루는 dplyr 패키지가 있다. 우선 dplyr 을 설치하고 로드한 후 데이터 프레임 내의 변수를 수정해보려고 한다. ggplot2 패키지 안에 있는 mpg 데이터의 변수명은 긴 단어를 짧게 줄인 축약어로 되어 있다. cty 변수는 도시 연비, hwy 변수는 고속도로 연비를 의미하는데, 이 변수명을 이해하기 쉬운 단어로 바꿔보자. [데이터 변수 이름 바꾸기] 1) ggplot2 패키지의 mpg데이터의 raw데이터를 손상시키지 않고 사용할 수 있도록 불러온 뒤 복사본을 만든다...
-
머신러닝(machine learning)과 R머신러닝 with R 2019. 6. 28. 19:13
정보의 바다라고 불리는 현대에 이제는 정확하고 퀄리티가 좋은 정보를 얻어내는 것이 능력이라고 하는 시대가 되었다. 데이터는 다양한 분야에서 수백, 수천, 수만, 수억,, 그리고 셀 수 없을 정도로 존재하고 있다. 이것을 가공하는 방법, 활용하는 방법을 통해 우리는 훨씬 더 우리의 삶과 밀접한 즉, 정말 필요한 데이터들만 쏙쏙 뽑아낼 수 있게 될 것이다. 머신러닝 (machine learning)은 우리말로 '기계 학습'이라고도 불린다. 말 그대로 기계가 스스로 학습 할 수 있도록 알고리즘을 개발하는 인공지능의 한 분야이다. 컴퓨터에게 데이터를 주면 컴퓨터가 스스로 그 데이터를 통해 패턴을 분석 및 학습하게 되고, 이후 새로운 데이터들이 들어와도 새로운 지식을 얻어 낼 수 있게 된다. 머신러닝은 결국 데이..