Statistics/수리통계학

확률변수(Random variable)

뚜찌지롱 2021. 3. 18. 15:49

 

오늘은 통계에서 가장 기본적인 개념인 "확률변수"에 대해 포스팅할 것이다. 사회에 나가서 확률변수가 뭐에요? 라고 질문받았는데 벙--찌는 상황을 방지하기 위해 !! 알고 있는 개념이라도 다시 짚어보고 지나가려고 한다. 😁

 

확률변수란, 확률실험을 했을 때 발생할 수 있는 결과(s)를 실수값($\mathbb{R}$)으로 바꿔주는 함수이다. 이를 기호로 표현하면 다음과 같다. 

 

$X : s \rightarrow  \mathbb{R} $ , $s \in S$

 

이해를 돕기 위해 동전을 2번 던지는 게임을 생각해보자. 동전을 2번 던졌을 때 앞면(H) or 뒷면(T)의 조합이 나올 경우는 {HH, HT/TH, TT} 이다. 여기서, 확률변수 X 를 앞면의 갯수라고 정의하면 X({HH, HT, TH, TT}) = {2, 1, 1, 0} 으로 변하게 된다. 따라서, 확률변수를 함수라고 할 수 있는 것이다. 위의 표현에서 s 는 표본공간에 속한 원소로 표본공간(sample space, S)확률실험의 결과로 나타날 수 있는 모든 결과들을 말하며, 확률실험(pobability experiment)결과를 예측할 수 없는 실험을 의미한다. 

 

확률변수는 크게 이산형 확률변수와 연속형 확률변수로 구분할 수 있다. 동전 앞면의 갯수와 같은 확률변수는 딱딱 떨어지는 값을 가지므로 이산형 확률변수라고 할 수 있다. 더 나아가 우리는 확률변수가 나타날 확률도 계산할 수 있다. 

 

$p_x(x) = P(X = x), x \in \mathbb{R}$

 

note! 확률변수 X가 취하는 구체적인 값은 흔히 소문자 x로 나타낸다. 

 

  • 확률변수가 이산형인 경우 위의 함수를 pmf(probability mass function) , 연속형인 경우 pdf(probability density function) 라고 부른다.
  • 확률변수의 중요한 특성은 분포를 가진다는 것이다. 분포는 확률변수가 취하는 값들이 흩어져 있는 정도를 의미한다. 위의 동전 예시에서 확률변수가 취하는 값들에 대한 확률을 구하면 다음의 표나 그림으로 나타낼 수 있으며, 이를 확률변수 X의 확률분포 또는 분포라고 한다. 

 

X 0 1 2 sum
p(X = x) $\frac{1}{4}$ $\frac{2}{4}$ $\frac{1}{4}$ 1

 

 대표적인 pmf(좌)와 pdf(우) 의 형태

note! 함수를 표기하는 방법(p(x), f(x), ..)은 자유이지만 통상적으로 p or f로 잘쓰인다.

 

위의 확률표에 상응하는 그래프는 좌측그림이다. 우측그림은 연속형 확률변수의 확률분포이다.

 

  • 여기서, 이산형 확률변수와 연속형 확률변수의 포인트는 이산형의 경우, 막대의 높이가 곧 그 점에서의 확률을 의미하지만 연속형의 경우 P(X=x) = 0 (1/(연속형 확률변수의 가능한 값) $\approx 1/\infty \approx 0$)임을 유의하자. 이는 연속형 분포의 함수값이 그 자체로 확률을 의미하는 것이 아니며, 다만 그 값 주변의 값을 취할 가능성을 상대적인 높이($\approx $밀도)로 나타낸 것이다. 예를 들어, 우측그림에서 확률변수 X는 0.7보다 0.5 주변의 값을 가질 가능성이 크다. 라고 해석할 수 있다. 연속형 확률변수의 확률을 구하기 위해서는 구간의 너비를 구해야한다.
더보기

Q  :  글쓴이는 pdf의 경우 왜 구간에 속할 확률이 넓이로 계산될 수 있는지 궁금하여 구글링을 하였다. 

A  :  결론! 연속형 확률변수의 특성상 가질 수 있는 값이 무한이기 때문에 한 점에 대한 확률값 정의가 불가능하다. 따라서, 확률밀도함수를 도입하였고 성질이 $\int pdf = 1$임을 이용해 구간에 대한 넓이를 구하면 그 넓이가 곧 확률의 의미를 가진다.

 

확률변수 X의 분포를 확률밀도함수로 설명했지만, 그 외에도 누적분포함수, 적률생성함수, 기댓값, 분산 등으로도 묘사할 수 있다. 

 

  • 누적분포함수(cumulative distribution function, cdf)는 확률변수가 특정값 이하의 값을 취할 확률을 계산해주는 함수이다.  

$F_x(x) = P(X \leq x), x \in \mathbb{R}$

 

  • 누적분포함수의 특징은

 

1) 비감소함수

2) 모든 x 점에서 우측으로부터 연속

3) $\lim_{x \rightarrow + \infty} F(x) = 1$ , $\lim_{x \rightarrow - \infty} F(x) = 0$ 이다.

4) $0 \leq F(x) \leq 1$

5) P(X = a) = F(a) - F(a-) 

6) P($a < X \leq < b) = F(a) - F(b) :

 

note! 모든 확률변수는 누적분포함수를 가지지만, 반드시 확률밀도함수를 갖는 것은 아니다. 

 

 

 

 

bskyvision.com/387

 

확률질량함수와 확률밀도함수 (왜 질량과 밀도??)

확률질량함수 확률질량함수(probability mass function, PMF)는 이산확률변수의 확률분포를 나타내는 함수이다. 즉, 확률변수가 취할 수 있는 값이 유한개이거나 자연수와 같이 셀 수 있는 이산확률변

bskyvision.com