-
[데이터분석] 데이터 분석 기법, 회귀분석 (Regression Anaylysis)머신러닝 with R 2022. 10. 25. 20:29
회귀분석
- 회귀계수 추정 방법: 최소자승법, 최우도법, 베이지안법, 적률법
- 독립 변수가 하나일 때: 단순회귀분석
- 독립변수가 2개 이상 일 때: 다중회귀분석
- 종속변수가 이항형, 순서형으로 나타나는 경우 로지스틱 회귀분석을 이용함
회귀분석 기본 모형 및 가정
Yi = α + βXi + εi
- α: 상수항
- β: 회귀계수
- εi: 오차항
- 기대값은 0 : E(εi) = 0
- 모두 동일한 분산을 갖는다
- 서로 독립적이며 정규분포를 이룸
최소자승법 (Least Square Method)
잔차의 제곱합을 최소화시키는 방법으로 회귀계수를 추정하는 방법
추정된 회귀식은 Y = α + βXi
추정된 표본 회귀계수인 β는 모수 B와의 사이에 오차가 발생하므로, b의 정확성, 적합성, 유의성을 검토해야 하는데, β의 표준 오차와, 분산분석표에서의 F-검정을 통해 검토 가능
β 검정 도구 내용 정확성 표준오차
표준오차가 작을수록 정확성이 높음 적합성 결정 계수 (r²) 결정계수가 1에 가까울수록 모형의 설명력이 높음 유의성 분산 분석 (F검정) F 값이 클수록 추정된 모형이 통계적으로 유의함 다중회귀분석
2개 이상의 독립변수가 종속변수에 미치는 영향 관계를 분석하는 기법
Yi = a + bX₁i +cX₂i + εi
- a: 상수항
- b, c: 회귀계수 (2개 이상)
- εi: 오차항
로지스틱회귀분석
일반적인 회귀분석은 종속변수가 연속형일 때 사용하는 반면, 로지스틱 회귀분석은 종속변수가 범주형 변수 일 때 사용한다.
로지스틱 회귀분석은 목표변수와 입력 변수에 의해 어떻게 설명되고 예측되는지 분석하기 위해 대상 자료를 적절한 함수식으로 나타내어 분석하는 통계 방법 중 하나이다.
분류모형이 한 종류로, 종속변수가 두 범주로 구성되어 있는 명목형 변수 일때 가장 적절한 분석 기법이다.
이항형 로지스틱 회귀 (Binominal Logistic Regression)과 로지스틱 회귀 (Multinominal Logistic Regression)가 있다.
특징
- 종속변수 y의 결과가 범위 [0,1]로 제한됨
- 종속변수가 이진적이므로, 조건부 확률의 분포가 정규분포 대신 이항 분포를 따름
연결함수는 로지스틱 모형과 검벨모형 이 있음
로지스틱 모형 식은 독립변수 [ ∞ , -∞ ] 범위의 어떤 값을 가져도 오즈(odds)를 로짓(logit)으로 변환하여, 종속변수의 범위는 항상 [0, 1] 가 되도록 한다.
로짓 변환
오즈에 로그를 취한 함수로서 입력 값의 범위가 [0, 1] 일 때 출력 값의 범위를 (∞ , -∞) 로 조정한다.
$$ logit(p) = log\frac{p}{1-p} $$
로지스틱 함수
로지스틱 회귀 모형
$$ logp(y = 1|x_{1},x_{2}, x_{3},...,x_{p}) / 1-p(y = 1|x_{1},x_{2}, x_{3},...,x_{p}) = \alpha +\beta _{1}x_{1}+...+\beta _{p}x_{p} $$
반응형'머신러닝 with R' 카테고리의 다른 글