ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • R 기초 통계/ 로지스틱 회귀 분석 (Logistic Regression)이란?
    머신러닝 with R 2019. 8. 23. 21:01

    회귀분석의 한계점

    데이터를 분석할 때 목표 변수가 이분형인 분류 문제가 있을 수 있다. 

    예를 들어 고객 이탈, 응답여부, 부도 여부, 구매 여부 등등 yes 혹은 no로 분류해야 할 경우이다. 

     

    • x 변수: 월수입 
    • y 변수: 어떤 상품에 대한 구입 여부(1 = 구입/ 0 = 구입하지 않음)

    이때, 우리는 예측값(y)으로 이산형을 얻어야 하지만,

    단순 회귀분석을 적용한다면 예측값이 이산형이 나올 수 없다. 

    단순 회귀분석은 선형식으로 나오기 때문에 식에 따라 음수가 나올 수도 있고, 1보다 큰 숫자들이 나올 수 있다.

    즉, y 에 대한 확률분포가 선형 회귀모형에서 가정되는 확률 분포가 아니다. 

     

    회귀분석으로 분석 할 경우, 1과 0이 아닌 파란색 선형그래프가 도출된다.

     

    그렇다면 어떻게 해결해야 할까? 

    종속변수를 확률값 P로 가정하여 결과를 예측해야 한다. P는 확률 값이기 때문에 0~1 사이 값을 가져야 한다.

    따라서 로짓 변환을 시켜준다.

    P = β0 + β1X + ε 

     

    P = exp(α + βX)/{1 + exp(α + βX)} 

    이와 같은 식으로 변환되면서 X 값에 상관없이 P는 항상 0~1 사이 값이 나온다.

    logit(P) = log(P/(1-P))로 변환하면 선형회귀식으로 바꿀 수 있다. 

    logit(P) = log(P(Y = 1|X) / (1-P(Y = 1|X)) = α + βX

    P/(1-P)를 승산비(odds ratio) 라고 하는데, 즉 Y = 0 이 일어날 확률 대비 Y = 1 이 일어날 확률의 비를 의미한다.

     

    승산비가 1 이면 P = 0.5 

    승산비가 3 이면 성공확률이 실패확률보다 3배 높다고 볼 수 있다.  P는 0.75 정도가 된다.

     

     

    정리하자면!! 로지스틱 회귀분석이란, 

    독립변수의 양적/연속적인 변수를 이용하여 종속변수인 이변량적 변수들 간의 인과관계를 추정하는 기법이다. 

     

    특징으로는

    - 다른 통계 기법보다 엄격하지 않다

    - 비선형 분석기법

    - 추정방법: 사건 발생 가능성을 최대화시키는 Maximum likelihood (최대 우도 법)을 사용

    - Y가 1일 확률을 예측, 확률 값을 정하여 yes or no로 분류한다. (확률이 0일 확률보다 크면 1, 그렇지 않으면 0)

    - 변수 선택 방법은 회귀분석과 동일하다.

     

     

    로지스틱 회귀분석의 결과 해석

    계수의 해석을 통한 결과 해석

    - estimate의 부호와 값의 크기를 기준으로 변수간 영향력을 비교할 수 있다.

    -  오즈비의 해석: estimate 값이 로그를 통한 값이기 때문에 exp를 취해야 함

    • 연속형 일 때 : 1 단위 씩 증가할 때마다 확률 값이 증가하는 비율
      • ex) 납입기간: exp(-2.165e-2) = 0.9785827 -> 납입기간이 1개월 증가하면 이탈 확률은 0.978 배 정도 증가
    • 명목형 일 때: 기준 카테고리 대비 비율
      • ex) 운전 여부: exp(2.688e-1) = 1.308393 -> 운전을 안 하는 사람 대비 운전을 하는 사람의 이탈 확률이 1.3배 정도 증가

     

     

    반응형

    댓글

Designed by Tistory.