-
R 기초 통계/ 로지스틱 회귀 분석 (Logistic Regression)이란?머신러닝 with R 2019. 8. 23. 21:01
회귀분석의 한계점
데이터를 분석할 때 목표 변수가 이분형인 분류 문제가 있을 수 있다.
예를 들어 고객 이탈, 응답여부, 부도 여부, 구매 여부 등등 yes 혹은 no로 분류해야 할 경우이다.
- x 변수: 월수입
- y 변수: 어떤 상품에 대한 구입 여부(1 = 구입/ 0 = 구입하지 않음)
이때, 우리는 예측값(y)으로 이산형을 얻어야 하지만,
단순 회귀분석을 적용한다면 예측값이 이산형이 나올 수 없다.
단순 회귀분석은 선형식으로 나오기 때문에 식에 따라 음수가 나올 수도 있고, 1보다 큰 숫자들이 나올 수 있다.
즉, y 에 대한 확률분포가 선형 회귀모형에서 가정되는 확률 분포가 아니다.
그렇다면 어떻게 해결해야 할까?
종속변수를 확률값 P로 가정하여 결과를 예측해야 한다. P는 확률 값이기 때문에 0~1 사이 값을 가져야 한다.
따라서 로짓 변환을 시켜준다.
P = β0 + β1X + ε
P = exp(α + βX)/{1 + exp(α + βX)}
이와 같은 식으로 변환되면서 X 값에 상관없이 P는 항상 0~1 사이 값이 나온다.
logit(P) = log(P/(1-P))로 변환하면 선형회귀식으로 바꿀 수 있다.
logit(P) = log(P(Y = 1|X) / (1-P(Y = 1|X)) = α + βX
P/(1-P)를 승산비(odds ratio) 라고 하는데, 즉 Y = 0 이 일어날 확률 대비 Y = 1 이 일어날 확률의 비를 의미한다.
승산비가 1 이면 P = 0.5
승산비가 3 이면 성공확률이 실패확률보다 3배 높다고 볼 수 있다. P는 0.75 정도가 된다.
정리하자면!! 로지스틱 회귀분석이란,
독립변수의 양적/연속적인 변수를 이용하여 종속변수인 이변량적 변수들 간의 인과관계를 추정하는 기법이다.
특징으로는
- 다른 통계 기법보다 엄격하지 않다
- 비선형 분석기법
- 추정방법: 사건 발생 가능성을 최대화시키는 Maximum likelihood (최대 우도 법)을 사용
- Y가 1일 확률을 예측, 확률 값을 정하여 yes or no로 분류한다. (확률이 0일 확률보다 크면 1, 그렇지 않으면 0)
- 변수 선택 방법은 회귀분석과 동일하다.
로지스틱 회귀분석의 결과 해석
계수의 해석을 통한 결과 해석
- estimate의 부호와 값의 크기를 기준으로 변수간 영향력을 비교할 수 있다.
- 오즈비의 해석: estimate 값이 로그를 통한 값이기 때문에 exp를 취해야 함
- 연속형 일 때 : 1 단위 씩 증가할 때마다 확률 값이 증가하는 비율
- ex) 납입기간: exp(-2.165e-2) = 0.9785827 -> 납입기간이 1개월 증가하면 이탈 확률은 0.978 배 정도 증가
- 명목형 일 때: 기준 카테고리 대비 비율
- ex) 운전 여부: exp(2.688e-1) = 1.308393 -> 운전을 안 하는 사람 대비 운전을 하는 사람의 이탈 확률이 1.3배 정도 증가
반응형'머신러닝 with R' 카테고리의 다른 글
[R 데이터 분석] 군집분석의 이해 :: 군집을 묶는 기준 '거리' / 군집분석의 평가 (0) 2019.08.30 R과 기초통계 - 좋은 회귀 모형? 회귀분석의 확장 LASSO (0) 2019.08.24 R 기초 통계 / 회귀 분석이란? (상관분석, 설명력, 다중공선성) (0) 2019.08.22 R 머신러닝 지도학습의 모형 성능 평가 (0) 2019.08.07 앙상블(Ensemble) 모형 / Bagging과 boosting (0) 2019.07.28