-
[R 데이터 분석/ 기초 통계] 확률변수, 확률질량함수, 누적분포함수, 이항분포, 포아송분포 (random variable, probability mass function, cumulative distribution function)머신러닝 with R 2020. 4. 25. 13:41
데이터 분석에 있어 데이터를 직접 생성하여 시뮬레이션을 할 경우가 있다. 그럴 때 우리는 난수를 생성하여 시뮬레이션을 하게 되는데, 난수들이 어떠한 분포를 따르게 될지 가정을 하고 생성을 하게 된다.
따라서 이때 필요한 몇가지 기초적인 개념들이 필요하다.
확률변수와 이산확률변수
확률변수 (random variable)란, 실험의 결과들을 수치에 대응시키는 변수들을 의미하며 여기서 '확률'은 실험을 하기 전에 어떤 값을 가질지 모르기 때문에 불확실성을 말한다.
확률 변수가 될 수 있는 값은 셀 수 있는 값을 가지거나 혹은 연속적인 값을 가질 수 있는데, 이때 셀 수 있는 값을 가지게 되는 확률변수를 이산확률변수(discrete)라고 하고, 연속적인 값(continuous)을 가지면 연속확률변수라고 한다.
쉽게 말해 이산확률변수는 1, 2, 3, .... 처럼 자연수나 정수 같은 값이다. 그에 반해 연속확률변수는 1~3 사이의 값을 가지게 된다면. 1.1, 1.2, 1.234 등등 수없이 많은 수로 나타낼 수 있다.
확률질량함수
이산확률변수 X가 x의 값을 가지게 될 확률 P(X=x)를 p(x)로 나타내는데 이를 확률질량함수 (probability mass function, pmf)이라고 한다.
이때, 다음의 성질을 만족해야 한다.
1) 모든 x에 대하여 0 ≤ p(x) ≤ 1
2) ∑p(x) = 1
누적분포함수
확률질량함수의 분포나 특성을 표현하기 위해, 누적분포함수(cumulative distribution function, cdf)를 사용하기도 하는데 즉, 확률변수 X가 주어졌을 때 P(X≤b) 와 같이 누적분포확률로 표현할 수 있다.
베르누이분포
동전을 던지는 시행의 결과는 무조건 앞면 혹은 뒷면 (실패 혹은 성공)으로만 나온다. 이때 매번 반복되는 실험을 통계학 용어로 시행(trial)이라고 하며, 이 때 결과가 실패나 성공 둘 중 하나로만 정의될 수 있다면 이 경우 '베르누이 시행 (Bernoulli trial)'을 했다고 말하고 베르누이 시행의 분포를 베르누이 분포(Bernoulli distribution)라고 정의할 수 있다. 베르누이 시행에서의 조건은 각 trial은 서로 독립이라는 것이다. 따라서 비복원추출을 하게 될 경우 베르누이 시행이 아니다.
이항분포
성공할 확률이 p인 베르누이 시행을 n번 반복할 때 X만큼 성공한다고 하면, 확률변수 X의 확률 분포를 (n, p)를 따르는 이항분포(binomial distribution)이라고 한다.
즉, 성공확률이 p인 n회의 베르누이 시행에서 성공횟수를 X라고 할 때
p(x) = nCx*p(x)*(1-p)^(n-x) (x=0,1,2,...,)
이며 X ~ Bin(n, p)로 나타낸다.
포아송분포
포아송분포(poisson distribution)은 매 순간의 사건 발생 확률이 아주 작을 때, 즉 p가 매우 작을 때 다루게 되는 확률분포이다.
p(x) = (e^(-x)*m^x) / x! (x=0,1,2,...) 이며 X~Pois(m)로 표현한다.
확률변수 X가 이항분포 Bin(n, p)를 따를 때, n → ∞, p → 0라면 포아송분포로 근사하게 된다.
보통 n은 20 이상이고, p가 0.05 이하 인 경우 포아송분포로 계산해도 크게 문제가 없다고 한다.
[출처] 공학도를 위한 통계학, 김진경 외 5
반응형'머신러닝 with R' 카테고리의 다른 글
[데이터분석] 데이터 분석 기법, 회귀분석 (Regression Anaylysis) (0) 2022.10.25 머신러닝(machine learning)의 기본 개념과 원리 (인공지능 vs. 머신러닝 vs. 딥러닝) (0) 2020.02.22 [R 데이터 분석] 나이브 베이즈 분류 (Naive Bayes Classification) (0) 2019.11.03 [R 데이터 분석] 분류모형, 서포트 벡터 머신 (SVM) 분석 (1) 2019.09.18 [R 데이터 분석] 최근접 이웃 (K-Nearest Neighbor, KNN) 분석 (0) 2019.09.15