-
R 데이터 분석의 기초 1. 데이터 파악하기 - head/tail/dim/View/str/summary머신러닝 with R 2019. 7. 16. 00:59
데이터 분석이 중요한 이유는 무엇일까?
우리는 넘쳐나는 정보의 시대, 빅데이터 시대에서 살고 있다.
구글에 R 이라는 단어만 검색해도 R에 대한 설명은 쉽게 찾아 볼 수 있다.
'구글링 (googling)' 이라는 단어가 생긴 것 처럼, 이제는 인터넷을 검색하면 모든 정보를 알아낼 수 있는 것이다.
따라서 정보의 양보다, 질이 훨씬 더 중요하게 되었다.
내가 가진 정보들이 얼마나 타당한지, 얼마나 정확한지 등 데이터의 품질을 파악하는 것이 데이터 분석의 하나의 목적인 것이다.
R에는 이런 데이터를 파악하는 함수를 기본적으로 제공하고 있다.
이러한 것들을 잘 활용한다면 어마어마한 양의 데이터를 파악하기 쉽게, 다루기 쉽게 수정할 수 있을 것이다.
함수 기능 head( ) 데이터 앞부분 6개를 출력 tail( ) 데이터 뒷부분 6개를 출력 View( ) 뷰어 창에서 데이터 확인 dim( ) 데이터의 차원을 출력 str( ) 데이터의 속성을 출력 summary( ) 요약통계량을 출력 #데이터 준비 exam <- read.scv("csv_exam.csv") head(exam) head(exam, 10)
head( ), tail( ) 함수를 사용하면 기본적으로 6 행까지의 데이터가 출력된다.
하지만 원하는 행 만큼을 출력할 수 있는데, 위처럼 10이라는 숫자를 추가해주면 head는 앞에서부터 10개, tail은 뒤에서 부터 10개의 데이터를 보여준다.
다음으로 View(exam) 이라는 함수를 실행해 보면, view 창에서 exam 이라는 csv 파일 데이터를 로드하여 보여준다.
이때 'V'는 대문자로 입력해야하며, 데이터가 엄청 커지면 메모리에 부담을 주게 되므로 R이 종료될 수도 있다. 따라서 자주 사용하는 함수는 아니다.
dim( )은 dimension 의 약자로 '차원'을 나타낸다. 따라서 데이터가 몇 행 몇 열로 구성되어 있는지 해당 데이터의 차원에 대해 출력시켜 준다.
하지만 차원은 데이터의 속성을 파악하기 위한 함수인 str( )을 사용하면 다 포함되어있기 때문에 dim( ) 보다는 str( ) 함수를 더 자주 사용한다.
summary( )는 말 그대로 해당 데이터의 요약된 통계량을 출력 시켜준다. summary를 통해 해당 데이터의 최솟값, 1분위수, 중간값, 평균값, 3분위수, 최댓값을 알 수 있다.
반응형'머신러닝 with R' 카테고리의 다른 글
자유자재로 데이터 가공하기 1. 데이터 전처리 dplyr 패키지 (0) 2019.07.17 R 데이터 분석의 기초 2. 데이터 수정하기 / 변수 이름 바꾸기/ 파생 변수 생성/ 조건문 ifelse 활용 (예제 있음) (0) 2019.07.16 R 데이터 프레임 (Data Frame) / 엑셀, csv 데이터 불러오기 / 데이터 저장하기 / RData (.rda) 파일 (0) 2019.07.01 데이터 분석을 위한 연장 3 - 패키지(packages) (0) 2019.06.30 데이터 분석을 위한 연장 2 - 함수 (function) (0) 2019.06.30