빅데이터
-
R 데이터 정제/ 결측치 및 이상치 제거하기머신러닝 with R 2019. 7. 18. 14:54
결측치(Missing Value) 란, 누락된 값, 비어있는 값을 의미하고 이러한 값은 함수 적용이 불가하며 분석 결과를 왜곡시킨다. 따라서 결측 값을 제거 후에 분석을 실시하는 게 좋다. 결측치는 보통 NA 라고 표기하며 작은따옴표나 큰 따옴표를 붙이지 않는다. 결측치를 확인할 때는 is.na(데이터프레임 명칭) ex) is.na(df) 결측치의 빈도를 출력할 때에는 table(is.na(데이터 프레임 명칭))이라는 함수를 사용한다. ex) table(is.na(df)) 결측치를 포함한 상태로 mean( ), sum( )과 같은 분석을 실시하면, 결과 값에 NA라고 뜨면서 제대로 값을 산출하지 못한다. 따라서 결측치가 있는 행을 제거한 후 분석을 실시해야 한다. 결측치를 제외 할 때에는 filter(!..
-
머신러닝(machine learning)과 R머신러닝 with R 2019. 6. 28. 19:13
정보의 바다라고 불리는 현대에 이제는 정확하고 퀄리티가 좋은 정보를 얻어내는 것이 능력이라고 하는 시대가 되었다. 데이터는 다양한 분야에서 수백, 수천, 수만, 수억,, 그리고 셀 수 없을 정도로 존재하고 있다. 이것을 가공하는 방법, 활용하는 방법을 통해 우리는 훨씬 더 우리의 삶과 밀접한 즉, 정말 필요한 데이터들만 쏙쏙 뽑아낼 수 있게 될 것이다. 머신러닝 (machine learning)은 우리말로 '기계 학습'이라고도 불린다. 말 그대로 기계가 스스로 학습 할 수 있도록 알고리즘을 개발하는 인공지능의 한 분야이다. 컴퓨터에게 데이터를 주면 컴퓨터가 스스로 그 데이터를 통해 패턴을 분석 및 학습하게 되고, 이후 새로운 데이터들이 들어와도 새로운 지식을 얻어 낼 수 있게 된다. 머신러닝은 결국 데이..