의사결정모델
-
앙상블(Ensemble) 모형 / Bagging과 boosting머신러닝 with R 2019. 7. 28. 16:16
데이터 분석에 있어서 모델링은 최적의 알고리즘을 선택함으로써 최종 모델을 도출하는 데 있어서 큰 역할을 한다. 앙상블(ensemble)이란 '함께, 동시에, 한꺼번에, 협력하여'라는 의미의 프랑스어이다. 이 의미와 같이 데이터 분석에서도 여러 개의 값을 하나로 하치는 방법을 '앙상블'이라고 말한다. 이는 모델링 기법 중에서 머신러닝에서 가장 많이 사용되고 있는 기법으로 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법이다. 이 모형은 여러 개의 weak leaner를 결합한다면 single learner 보다 더 나은 성능을 얻을 수 있다는 일종의 '집단 지성'으로부터 아이디어가 나왔다. 일반적으로 학습에서 나타나는 오류는 1) 지나친 치우침(bias)으로 인한 underfitti..
-
R 데이터 마이닝 '의사결정 나무 (Decision Tree)'란?머신러닝 with R 2019. 7. 23. 01:21
의사결정 나무 추론이란? 의사결정 나무 추론은 데이터 마이닝에서 대중적으로 사용하는 방법론이다. 의사결정규칙을 나무 구조로 도표화하여 분류(classification)와 추정(esimation)을 수행하는 분석 방법이다. 입력된 변수(x)를 바탕으로 목표 변수(y)의 값을 예측하는 모델을 생성하는 것이 목적이다. 의사결정나무는 규칙들을 표현하고 있으며, 이러한 규칙은 문장 형태로 표현될 수 있다. 신경망, 판별분석, 회귀분석보다 이해하기 쉽고 설명력이 높다는 특징이 있다. 의사결정 나무는 초등학생 때 누구나 한 번쯤 해본 '스무고개'와도 같다. 어떤 연속된 질문들에 대해 예/아니오로 대답함으로써 정답을 찾아 나가는 과정이다. 처음 질문의 답에 따라 다음 질문이 달라지는 것도 스무고개와 비슷하다고 볼 수 ..