ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • R 기계학습 모델링 기법 및 알고리즘 (지도학습, 비지도학습, 분류모델, 추정모델, 군집모델, 연관성 모델)
    머신러닝 with R 2019. 7. 22. 17:32

    기계학습 (Machine Learning)의 종류

     

    기계 학습에는 크게 두가지 종류가 있는데, 대표적으로 지도학습과 비지도학습이 있다.

     

    지도학습은 데이터 안에 예측하려는 변수, 즉 결과값(y)이 존재해, 이것을 이용해 입력변수(x)의 조합을 학습해 y 값을 최대한 잘 예측할 수 있는 y = f(x) 함수를 만드는 방법이다. 정확한 y 값을 알고 있기 때문에 우리가 학습한 것이 얼마나 잘 맞는지를 평가할 수 있다.

     

    지도학습의 모델에는 분류(Classification) 모델과 추정(Estimation) 모델이 있다. 

    먼저, 분류 모델이란 입력변수(x)가 있고 목표변수(y)가 있는데, x 변수를 조합하여 변수 (y')를 예측하는 함수를 만드는 것이다. 즉 y' 변수를 yes or no로  예측하는 모델이다.

    확률을 보통 0.5 를 기준으로 하여 0.5 이상이면 yes, 0.5 이상이면 no로 예측할 수 있다. 확률의 기준(0.5)은 분석하면서 각 분석 결과에 맞도록 조금씩 조정할 수 있다.

    대표적인 분석 방법으로는 Logistic Regression, CART, SVM, random forest, Naive Bayes 등이 있다.

     

     

    분류 모델링 데이터 구성

     

     

    다음으로 추정 모델은 목표 변수(y)가 연속된 값(숫자형), 예를 들어 이용 시간, 구매 금액, 아파트 가격 등이 있는데 그 중에서 예측하는 결과 값(y')을 숫자형으로 예측하는 모델이다. 그 예측 변수의 값을 맞추는 것을 추정이라고 하기 때문에 추정 모델이라고 할 수 있다. 예측 변수가 카테고리 된 값이 아니라 숫자이다.

    대표적인 분석 방법으로는 Linear regression, CART Neural Network 등이 있다.

     

     

    추정 모델링 데이터 구성

     

     

     

    비지도학습은 예측하거나 분류하고자 하는 변수가 존재하지 않거나 필요하지 않는 학습 방법을 말한다.

    변수 간 또는 관측 치간의 관계를 밝히거나 패턴을 찾아내거나 그룹화하여 공통 성질을 찾아내는 학습을 말한다.

    결과 변수가 없기 때문에 얼마나 잘 맞는지 직접적으로 평가할 수 없다. 

     

    비지도 학습의 모델에는 군집(Clustering) 모델과 연광성(Association) 모델이 있다.

    먼저 군집 모델에는 데이터 안에 목표 변수(y)가 없다. 어떤 행들 안에 유사한 값이 있으면 그것들을 묶어 군집으로 나타낸다. 1번 행 안에 있는 row 들과 2번 행 안에 있는 row 들이 거리를 만드는데, 이 거리가 가까우면 같은 군집안에,  멀면 다른 군집에 넣어 소속 군집을 만든다. 

     

     

    군집 모델링 데이터 구성

     

    다른 모델에는 연관성(Association)모델이 있다. 장바구니 분석으로 부르기도 하는데 예를 들어 각각의 변수가 특정한 상품을 의미하고 각각의 구매자가 구매를 하면 True, 아니면 False 로 하나하나 적어준다. 이를 통해 어떤 상품들이 같이 구매가 되는지 알 수 있다. 

    결과 값이 어떤 rule(연관 규칙)으로 나오게 된다. 대표적으로 Apriori, Sequence, FP-Growth 분석 방법이 있다.

     

       

    연관성 모델링 데이터 구성

     

     

     

     

    다음을 통해 자주 사용하는 모델링에 따른 알고리즘 기법을 확인할 수 있다. 

     

     

    그렇다면 좋은 모형이란 어떤 것을 의미할까? 이를 위해서는 모형 평가를 통해 좋은 모형인지를 파악할 수 있다.

     

    모형 평가는 예측을 위해 생성된 모형이 기존 방법(random model이나 base model) 보다 우수한지, 고려된 서로 다른 모형들 중 어느것이 가장 우수한 예측력을 보유하고 있는 지 등을 비교하고 분석하는 과정이다.

    성능이 좋은 모형을 찾기 위한 기준도 예측 변수의 형태에 의해 다르게 고려되어야 한다.

     

    모형평가에 대한 기준은 다음과 같은데, 대표적으로 

    - 일반화의 가능성(안정성)

    - 효율성 (경제성)

    - 정확성

    을 통해 모형을 평가할 수 있다.

     

     

    일반화의 가능성은 같은 모집단 내의 다른 데이터에 적용하는 경우 얼마나 안정적인 결과를 제공해 주는지, 확장하여 적용 가능한지에 대한 여부로 좋은 모형인지를 알 수 있다.

    효율성은 모형이 얼마나 효과적으로 구축되었는지, 얼마나 적은 입력변수로 모형을 구축했는지 등을 기준으로 파악할 수 있다.

    정확성은 생성된 모형이 얼마나 분류와 추정에서 뛰어난 성능을 보이는지를 통해 알 수 있다. 아무리 안정적이고 효과적인 모형이라 할지라도 실제 문제에 적용했을 경우 결과가 모두 빗나간다고 하면 아무런 의미가 없을 수 있다.

     

     

     

     

     

     

    [출처] 실무에서 써먹는 머신러닝 with R

     

    반응형

    댓글

Designed by Tistory.