머신러닝 with R
-
R 데이터 프레임 (Data Frame) / 엑셀, csv 데이터 불러오기 / 데이터 저장하기 / RData (.rda) 파일머신러닝 with R 2019. 7. 1. 15:21
[데이터 프레임 이란?] 데이터 프레임(data.frame)은 R에서 가장 많이 쓰이는 데이터 구조이다. 데이터 프레임은 행과 열을 가지는 표 형식으로 숫자나 문자 상관없이 다양한 형식의 데이터를 담을 수 있다. 이름 영어점수 수학점수 반 김지훈 90 50 1 이유진 80 60 1 박동현 60 100 2 김민지 70 20 2 위 데이터를 입력해 데이터 프레임을 만들어 본 후 결과를 확인해 보자. 데이터 프레임을 만드는 함수는 data.frame( ) 이다. 데이터 프레임을 변수에 할당할 때에는 df_ 를 사용하여 명시해주면 구분이 쉽다. 데이터 프레임은 따로 패키지를 다운로드하거나 로드하지 않아도 기본적으로 사용할 수 있다. english
-
데이터 분석을 위한 연장 3 - 패키지(packages)머신러닝 with R 2019. 6. 30. 17:47
패키지는 간단히 말해서 함수들의 꾸러미이다. 하나의 패키지 안에는 다양한 함수가 들어있으며, 함수를 사용하기 위해서는 그 함수가 포함된 패키지를 설치해야 한다. 예시로 R의 시각화에서 빠지지 않는다는 "ggplot2"라는 패키지를 설치해보자. install.packages("ggplot2") library("ggplot2") install.packages("패키지 명칭") 명령을 통해 원하는 패키지를 설치한 후 library( )로 패키지를 로드해야 포함된 함수를 사용할 수 있다. 에러 없이 로드가 된다면 설치가 잘 된 것이다. 필자는 처음 설치할 때 다음과 같은 메시지가 뜨면서 오류가 났다. 처음에는 경로 때문에 설치가 안 되는 줄 알았는데, 구글링을 통해 관리자 권한으로 실행시켜 보면 된다고 해서 따..
-
데이터 분석을 위한 연장 2 - 함수 (function)머신러닝 with R 2019. 6. 30. 16:56
변수에 대해 이해했다면, 다음으로는 함수에 대해 공부할 차례이다. 함수는 쉽게 말해서 값을 넣으면 특정한 기능을 수행해 처음과 다른 값이 출력되는 일을 한다. R은 다양한 내장 함수들을 가지고 있는데, 이 함수들을 이용해 원하는 값을 쉽게 구할 수 있다. 예를 들어 1, 2, 3 의 평균을 구하기 위해서는 (1+2+3)/3 라는 수식을 사용해야 한다. 하지만 R은 mean() 함수를 가지고 있어 훨씬 간단하게 계산할 수 있다. 아래 예시 코드에서 숫자를 다루는 함수를 살펴보자! x
-
데이터 분석을 위한 연장 1 - 변수(Variable)머신러닝 with R 2019. 6. 29. 21:30
[변수란?] 프로그래밍을 시작하면 어떤 언어든 공통적으로 필요한 기초 지식이 있다. 바로 그 기초 중의 기초, 또 그만큼 중요한 수가 있는데 바로 '변수'이다. 변수(Variable)은 간단히 말해서 '변하는 수'라는 의미이다. 이와 상반되는 개념으로 상수가 있는데, 상수는 변하지 않는 수를 의미한다. 변수는 다양한 값을 지니고 있는 하나의 속성으로 데이터 분석의 대상이 된다. 위 사진에서 소득, 성별, 학점은 각 개체에 따라 변하지만, 국적은 대한민국이라는 값으로 동일하다. 따라서 소득, 성별, 학점은 변수라고 할 수 있으며 국적은 상수라고 할 수 있다. [변수 만들기] 이제 간단한 변수를 만들어보자. R에서 변수를 선언하고 값을 넣을 때에는
-
데이터 분석 방법론, CRISP-DM머신러닝 with R 2019. 6. 29. 17:25
CRISP-DM은 Cross-Industry Standard Process for Data Mining의 약자이다. 즉, Data Mining(이하 데이터 마이닝)을 위해 만들어진 분석 방법론인데, 데이터 마이닝뿐만 아니라 예측 분석, 머신러닝 등 여러 분석적 프로젝트에도 이용할 수 있다. * 데이터 마이닝이란? 보유한 데이터를 다양한 관점에서 분석하고, 그 결과를 유용한 정보로 조합하는 일 (인공지능과 기계학습과 맥락이 조금 다르다고 하는데 이 부분은 더 공부한 후 포스팅 예정) 이러한 분석 방법론이 생겨난 이유는 무엇일까? 막상 데이터 분석을 시작하려고 하면 뭐부터 시작해야 할지 막막하다. 해결해야할 문제를 어떻게 알고리즘화 해야 할지도 감이 잡히지 않는다. 즉, 어떻게 실무에 적용해야 할지 모를 때..
-
R과 RStudio 설치하기 (Windows OS 기반)머신러닝 with R 2019. 6. 28. 22:17
R은 데이터 핸들링 & 통계 & 머신러닝 & 시각화를 위한 오픈소스 기반의 언어! 누구나 설치 가능: 개인, 연구, 상업용 멀티 OS 지원 : Windows, Mac, Linux RStudio는 유료 및 무료/ Server 및 Desktop 용 판매 1. https://cran.r-project.org/ 접속 The Comprehensive R Archive Network cran.r-project.org 2. 우측의 CRAN의 "Mirrors"선택. 3. Korea의 다섯가지 서버 중 서울시 : https://cran.seoul.go.kr/ 클릭. 4. 각자의 컴퓨터 OS에 맞는 버전 선택 5. BASE 클릭 6. Download R 3.6.0 for Windows 클릭 7. R설치 설치 언어 선택: ..
-
머신러닝(machine learning)과 R머신러닝 with R 2019. 6. 28. 19:13
정보의 바다라고 불리는 현대에 이제는 정확하고 퀄리티가 좋은 정보를 얻어내는 것이 능력이라고 하는 시대가 되었다. 데이터는 다양한 분야에서 수백, 수천, 수만, 수억,, 그리고 셀 수 없을 정도로 존재하고 있다. 이것을 가공하는 방법, 활용하는 방법을 통해 우리는 훨씬 더 우리의 삶과 밀접한 즉, 정말 필요한 데이터들만 쏙쏙 뽑아낼 수 있게 될 것이다. 머신러닝 (machine learning)은 우리말로 '기계 학습'이라고도 불린다. 말 그대로 기계가 스스로 학습 할 수 있도록 알고리즘을 개발하는 인공지능의 한 분야이다. 컴퓨터에게 데이터를 주면 컴퓨터가 스스로 그 데이터를 통해 패턴을 분석 및 학습하게 되고, 이후 새로운 데이터들이 들어와도 새로운 지식을 얻어 낼 수 있게 된다. 머신러닝은 결국 데이..