1. 균등(=균일)분포
■ 균등분포(uniform distribution)는 확률변수 \( X \)가 일정하고 유한한 실수 구간 \( [a, b] \) 안에서 정의되며, 그 구간 안에서 확률 밀도가 같은(어떤 값을 가질 확률이 모두 동일할 때의) 확률분포이다.
■ 이때, 확률변수 \( X \)는 균등분포를 따른다고 하며, \( X \sim U(a, b) \)로 표기한다.
■ 그리고 \( X \)의 확률밀도함수는 유일한 실수 구간 \( [a, b] \)에서 \( f(x) =
\begin{cases}
\dfrac{1}{b-a}, & \text{if } a \leq x \leq b \\
0, & \text{otherwise}
\end{cases} \)이다.
- \( a \leq x \leq b \)일 때, 다음과 같이 어떤 일정한 값을 갖는다.
- 예를 들어, \( a = 0 \)부터 \( b = 10 \) 사이에서 임의의 한 점을 선택할 때, 0부터 10까지 구간에서 임의의 한 점이 선택될 가능성은 동일하다.
■ \( a \leq x \leq b \)에서 확률밀도함수 \( f(x) = \dfrac{1}{b-a} \)인 이유는 확률변수가 취하는 범위 내에서 면적은 1이 되야한다는 확률밀도함수의 특성 때문이다. \( \displaystyle\int_{-\infty}^{\infty} f(x) \,dx = 1 \)
- 위의 그림에서 면적이 1이 되기 위해서는 \( (b - a) \times \dfrac{1}{b-a} = 1 \)이므로 \( \dfrac{1}{b-a} \)가 필요하다.
- \( X \)의 확률밀도함수를 \( f(x) =
\begin{cases}
c, & \text{if } a \leq x \leq b \\
0, & \text{otherwise}
\end{cases} \)라고 할 때, (\( c \)는 어떤 일정한 값)
- \( \displaystyle\int_{-\infty}^{\infty} f(x) \,dx = 1 \)인데, 위의 그림처럼 균등분포에서는 구간 \( [a, b] \)를 제외한 나머지 구간에서 값이 0이므로
- \( \displaystyle \int_{-\infty}^{\infty} f(x) \,dx = \displaystyle \int_{a}^{b} f(x) \,dx \)라고 할 수 있다. 이때 \( [a, b] \)에서 \( f(x) = c \)이므로
- \( \displaystyle \int_{-\infty}^{\infty} f(x) \,dx = \displaystyle \int_{a}^{b} f(x) \,dx
= \displaystyle \int_{a}^{b} c \,dx = c \displaystyle \int_{a}^{b} 1 \,dx
= c (b - a) = 1 \Rightarrow c = \dfrac{1}{b-a} \)가 성립한다.
■ 균등분포를 따르는 확률변수의 기댓값과 분산은, 균등분포의 p.d.f(확률밀도함수)를 이용하면,
- \( E(X) = \displaystyle \int_{a}^{b} x f(x) \,dx
= \displaystyle \int_{a}^{b} x \cdot \dfrac{1}{b-a} \,dx
= \dfrac{1}{b-a} \left[ \dfrac{1}{2} x^2 \right]_{a}^{b}
= \dfrac{a+b}{2} \)
- \( E(X^2) = \displaystyle \int_{a}^{b} x^2 \cdot \dfrac{1}{b-a} \,dx
= \dfrac{1}{b-a} \left[ \dfrac{1}{3} x^3 \right]_{a}^{b}
= \dfrac{b^2 + ab + a^2}{3} \)
- \( \text{Var}(X) = E(X^2) - E(X)^2
= \dfrac{b^2 + ab + a^2}{3} - \left(\dfrac{a+b}{2}\right)^2
= \dfrac{(b-a)^2}{12} \)
- cf) \( std(X) = \sqrt{\dfrac{(b-a)^2}{12}} = \dfrac{b-a}{\sqrt{12}} \), (\( (b - a)^2 \)은 양수이므로 \( \sqrt{(b-a)^2} = b - a \)
- 이때, \( std(X) = \dfrac{b-a}{\sqrt{12}} \)이므로 \( b - a \)값이 작으면 분산, 표준편차가 작아지고 \( b - a \)값이 크면 분산, 표준편차가 커진다.
■ 예를 들어, 버스가 항상 8:00에서 8:10 사이에 정류장에 도착하며, 특정한 시간 내의 도착 확률은 구간 길이에 비례한다면, 어떤 사람이 8시에 정류장에 도착했을 때, 버스가 올 때까지 기다리는 시간을 \( X \)라하면, \( X \sim U(0, 10) \)을 따르며
- 균일분포의 확률밀도함수는 \( f(x) =
\begin{cases}
\dfrac{1}{10}, & 0 \leq x \leq 10 \\
0, & \text{otherwise}
\end{cases} \)이다.
- 이 예에서 버스를 기다리는 시간 \( X \)의 기댓값과 분산은
- \( E(X) = \dfrac{0 + 10}{2} = 5, \quad
E(X^2) = \dfrac{100}{3}, \quad
Var(X) = \dfrac{100}{3} - 5^2 = \dfrac{25}{3} \)
- cf) \( E(X) = \displaystyle \int_{0}^{10} x f(x) \,dx
= \displaystyle \int_{0}^{10} x \cdot \dfrac{1}{10} \,dx
= \dfrac{1}{10} \left[ \dfrac{1}{2} x^2 \right]_{0}^{10} = 5 \)
- 버스를 7분 이상 기다릴 확률은 \( P(X \geq 7) \)이므로, \( P(X \geq 7) = \displaystyle \int_{7}^{10} \dfrac{1}{10} \,dx = \dfrac{3}{10} \)
- 7분까지 버스가 도착하지 않으면, 택시를 탄다고 했을 때, 버스는 1,000원이고 택시는 5,000원이면 비용의 기댓값은
\( E(\text{cost}) = \text{버스비용} \times \text{7분까지 버스가 도착할 확률} + \text{택시비용} \times \text{7분까지 버스가 도착하지 않을 확률} \)
\( = 1000 \times P(X \leq 7) + 5000 \times P(X \geq 7) = 1000 \times \dfrac{7}{10} + 5000 \times \dfrac{3}{10} = 2200 \)
■ 여기까지가 균등분포의 p.d.f에 대한 설명이다.
■ c.d.f(누적분포함수)는 \( F(\alpha) = \displaystyle \int_{-\infty}^{\alpha} f(x) \,dx \)로 구간 \( -\infty \)부터 \( \alpha \)까지 모든 확률을 더하는 것으로, 여기서의 확률은 p.d.f로부터 얻는다. 즉, c.d.f는 \( \alpha \)보다 작은 모든 구간에 대해 모든 확률을 더하는 것이다.
■ 균등분포의 p.d.f는 \( f(x) =
\begin{cases}
\dfrac{1}{b-a}, & a \leq x \leq b \\
0, & \text{otherwise}
\end{cases} \)이므로 다음과 같이 3개의 구간으로 나뉜다.
즉, c.d.f의 \( F(\alpha) \)에서 \( \alpha \)가 위의 3가지 구간 중에 존재할 수 있으므로, 균등분포의 c.d.f는 구간을 3가지로 나눠 고려해야 한다.
■ 구간 ①인 경우는 \( \alpha \)가 \( a \)보다 작거나 같은 경우이다. (\( \alpha \leq a \))
- 이 경우 균등분포의 p.d.f의 값은 0이다. 균등분포의 p.d.f는 구간 \( [a, b] \)를 제외한 나머지 구간에서 값이 0이기 때문이다.
- \( F(\alpha) \)는 \( \alpha \)보다 작거나 같은 범위가 대상이기 때문에 \( F(\alpha) = \displaystyle \int_{-\infty}^{\alpha} f(x) \,dx
= \displaystyle \int_{-\infty}^{\alpha} 0 \,dx = 0 \)
■ 구간 ②인 경우는 \( \alpha \)가 구간 \( [a, b] \) 사이에 존재하는 경우이다. (\( a < \alpha < b \))
- \( F(\alpha) \)는 \( \alpha \)보다 작은 범위가 대상이다. 이때 \( a < \alpha < b \)이므로 하한은 \( a \)이다. 그러므로 적분 구간은 \( a \)애서 \( \alpha \)까지이다.
- \( F(\alpha) = \displaystyle \int_{-\infty}^{\alpha} f(x) \,dx
= \displaystyle \int_{a}^{\alpha} f(x) \,dx
= \displaystyle \int_{a}^{\alpha} \dfrac{1}{b-a} \,dx
= \dfrac{\alpha - a}{b-a} \)
■ 구간 ③은 \( \alpha \)가 \( b \)보다 위에 있는 경우이다.
- 그러므로 이 경우에 대한 \( F(\alpha) \)의 구간은 다음과 같이 \( \alpha \)보다 작은 범위가 대상이다.
- 이때 \( [a, b] \)를 제외한 나머지 구간은 0이므로 \( F(\alpha) \)는 구간 \( [a. b] \)에 대한 적분만 계산하면 된다.
- \( F(\alpha) = \displaystyle \int_{-\infty}^{\alpha} f(x) \,dx
= \displaystyle \int_{a}^{b} f(x) \,dx
= \displaystyle \int_{a}^{b} \dfrac{1}{b-a} \,dx
= \dfrac{b-a}{b-a} = 1 \), 이렇게 누적분포의 경우 모든 범위를 다 더했을 때 1이 된다.
■ 정리하면, 균등분포의 c.d.f는 다음과 같이 정의된다.
\( F(\alpha) =
\begin{cases}
0, & \alpha \leq a \\
\dfrac{\alpha - a}{b-a}, & a < \alpha < b \\
1, & b \leq \alpha
\end{cases} \)
■ 누적분포는 모든 범위를 다 더했을 때 1이 되기 때문에 균등분포의 누적분포함수 그래프는 다음과 같다.
- 구간 \( a~b \)에서 \( F(\alpha) \)의 기울기가 양수인 이유는 \( a, b \)값이 0보다 크고, \( \alpha \)는 \( a < \alpha < b \)에 있으므로 \( \dfrac{\alpha-a}{b-a} \)는 양수가 되기 때문이다.
■ 예를 들어, 확률변수 \( X \)의 확률분포가 \( f(x) = 1, \quad 0 \leq x \leq 1 \)일 때
- \( X \)의 기댓값과 분산은 \( E(X) = \dfrac{0 + 1}{2} = \dfrac{1}{2}, \quad Var(X) = \dfrac{(1 - 0)^2}{12} = \dfrac{1}{12} \)
- 누적분포함수 \( F_X(x) = x, \quad 0 \leq x \leq 1 \)이므로, \( F_Y(y) = P(2 + 4X \leq y) = P\left(X \leq \dfrac{y-2}{4} \right)
= F_X\left(\dfrac{y-2}{4} \right) = \dfrac{y-2}{4}, \quad 2 \leq y \leq 6 \)이 된다.
- 연속형 확률변수의 누적분포함수를 미분하면 확률밀도함수이므로 \( f_Y(y) = \dfrac{1}{4}, \quad 2 \leq y \leq 6 \)이 된다.
- 그러므로 \( Y \)의 기댓값과 분산은 \( E(Y) = \dfrac{2 + 6}{2} = 4, \quad
Var(Y) = \dfrac{(6 - 2)^2}{12} = \dfrac{4}{3} \)
2. 지수분포
■ 지수분포(exponential distribution)는 다음과 같이 확률밀도함수가 \( \lambda ( \lambda > 0 ) \)에서 시작하여 지수적으로 감소하는 확률분포이다.
\( f(x) =
\begin{cases}
\lambda e^{-\lambda x}, & x \geq 0 \\
0, & x < 0
\end{cases} \)
■ 지수분포를 따르는 확률변수 \( X \)의 누적분포함수는 \( x \geq 0 \)에서 \( f(x) = \lambda e^{-\lambda x} \)이므로
- \( F(x) = \displaystyle \int_{-\infty}^{x} f(x) \,dx
= \displaystyle \int_{0}^{x} \lambda e^{-\lambda x} \,dx
= \lambda \left[ -\dfrac{1}{\lambda} e^{-\lambda x} \right]_{0}^{x}
= 1 - e^{-\lambda x} \)이다.
- 이때 이 값은 '\( x \geq 0 \)일 때'이므로 누적분포함수를 다음과 같이 나타낼 수 있다.
\( F(x) =
\begin{cases}
0, & x < 0 \\
1 - e^{-\lambda x}, & x \geq 0
\end{cases} \)
■ 이러한 지수분포는 '포아송분포에서 발생하는 사건들 사이의 시간'을 모형화하는데 사용된다.
- 예를 들어, 어떤 고객의 도착 시간과 다른 고객의 도착 사이의 시간. 즉, 고객의 도착 사이의 시간(inter-arrival time)이나 새로 교체한 부품이 다음 번 고장날 때까지 걸리는 시간 등을 설명할 때 지수분포를 사용한다.
■ 확률변수 \( X \)가 지수분포를 따르면, \( X \sim Exp(\lambda) \)로 표기한다.
■ 즉, 지수분포의 파라미터는 \( \lambda \)인데, 여기서 \( \lambda \)는 \( \lambda \geq 0 \)이며, '단위 시간당(혹은 단위 면적당) 평균적으로 발생하는 event의 수'이다.
- 예를 들어, \( X \sim Exp(3) \)이라면 \( X \)는 시간당 사건이 평균 3번 발생하는 포아송 과정에서 어떤 사건이 발생하고 난 뒤, 다음 사건이 발생할 때까지 걸리는 시간을 나타내는 확률변수이다.
■ 지수분포를 따르는 확률변수 \( X \)의 평균과 분산은 지수분포의 p.d.f가 \( f(x) =
\begin{cases}
\lambda e^{-\lambda x}, & x \geq 0 \\
0, & x < 0
\end{cases} \)라는 점과 부분적분을 이용하면 지수분포의 기댓값과 분산은 다음과 같다.
- \( E(X) = \displaystyle \int_{-\infty}^{\infty} x f(x) \,dx
= \displaystyle \int_{0}^{\infty} \lambda x e^{-\lambda x} \,dx
= \left[ -x e^{-\lambda x} \right]_{0}^{\infty} - \displaystyle \int_{0}^{\infty} -e^{-\lambda x} \,dx
= 0 + \displaystyle \int_{0}^{\infty} e^{-\lambda x} \,dx
= \left[ -\dfrac{1}{\lambda} e^{-\lambda x} \right]_{0}^{\infty} = \dfrac{1}{\lambda} \)
- \( E(X^2) = \displaystyle \int_{-\infty}^{\infty} x^2 f(x) \,dx
= \displaystyle \int_{0}^{\infty} \lambda x^2 e^{-\lambda x} \,dx
= \left[ -x^2 e^{-\lambda x} \right]_{0}^{\infty} - \displaystyle \int_{0}^{\infty} -2x e^{-\lambda x} \,dx
= 0 + 2 \displaystyle \int_{0}^{\infty} x e^{-\lambda x} \,dx = \dfrac{2}{\lambda} \displaystyle \int_{0}^{\infty} \lambda x \cdot e^{-\lambda x} \,dx
= \dfrac{2}{\lambda} E(X) = \dfrac{2}{\lambda^2} \)
- \( Var(X) = \dfrac{2}{\lambda^2} - \dfrac{1}{\lambda^2} = \dfrac{1}{\lambda^2} \)
- 여기서 확률변수 \( X \)가 다음 사건(이 예에선 도착)이 일어날 때까지 걸리는 시간이므로 \( X \)를 대기하는 시간으로 생각할 수 있다.
- 그리고 기댓값은 여러 번 관측했을 때의 평균 값이므로, \( E(X) = \dfrac{1}{\lambda} \)을 '평균 대기시간'으로 볼 수 있다.
- 여기서 지수분포에서의 \( \lambda \)의 의미를 고려하면, \( E(X) = \dfrac{1}{\lambda} \)은 '평균적으로 \( \dfrac{1}{\lambda} \)만큼 기다리면 다음 사건이 발생한다'는 의미를 갖는다고 볼 수 있다.
- 마찬가지로 \( Var(X) \)는 \( X \)를 대기하는 시간으로 생각한다면, '대기 시간의 분산'으로 생각할 수 있으며, 분산은 기댓값(평균)을 중심으로 관측값 \( x \)들이 얼마나 퍼져 있는지를 나타내는 척도이므로, \( Var(X) = \dfrac{1}{\lambda^2} \)은 대기 시간들이 평균 대기시간 \( \dfrac{1}{\lambda} \)주변에서 얼마나 흩어져 있는지'를 나타낸다고 할 수 있다.
2.1 지수분포의 비기억 특성(memoryless property)
■ 이산형 분포에서 비기억 특성을 갖는 분포는 '기하분포'이며, 연속형에서는 '지수분포'가 비기억 특성을 갖는다.
■ 지수분포의 비기억 특성은 다음과 같다.
\( P(X > s + t \mid X > t) = P(X > s), \quad \text{for all } s, t \geq 0 \)
- \( P(X > s + t \mid X > t) = \dfrac{P(X > s + t)}{P(X > t)} \)
\( = \dfrac{1 - P(X \leq s + t)}{1 - P(X \leq t)}
= \dfrac{1 - F(s + t)}{1 - F(t)}
= \dfrac{e^{-\lambda (s + t)}}{e^{-\lambda t}}
= e^{-\lambda s}
= 1 - F(s) = P(X > s) \)
- \( P(X > s + t \mid X > t) = P(X > s) = e^{-\lambda s} = 1 - F(S) \)
- ex) \( P(X > 5 \mid X > 3) = P(X > 2) = e^{-2\lambda} \)
■ 여기서 \( X \)를 '지수분포를 따르는 대기시간', \( X > t \)를 '대기시간이 \( t \)보다 더 기다림', \( X > s + t \)를 ' \( t \)에 \( s \)만큼 더 기다림', \( X > s \)를 '대기시간이 \( s \)보다 더 기다림'이라는 의미로 생각하면
■ 조건부 형태이므로, 대기시간이 '\( t \)'보다 더 기다렸다는 과거의 사실이 있든 없든, 앞으로 '\( s + t \)'만큼 기다려도 오지 않을 확률은 \( s \)보다 더 기다려도 오지 않을 확률과 동일하다.는 의미를 갖는다.
■ 예를 들어, 어떤 제품의 수명이 지수분포를 따른다면, 비기억 특성에 의해 제품이 '\( y \)시간' 작동했다는 조건 하, 앞으로 제품이 '\( x \)시간 더 작동(\( = y + x \)시간 작동)'할 확률은 새 제품이 \( x \)시간 작동할 확률과 같다는 의미가 된다.
■ 만약, 평균수명이 10년인 지수분포를 따르는 제품을 5년간 고장 없이 사용했을 때, 앞으로 3년 더 고장 없이 작동할 확률은
- 평균 수명(수명의 기댓값)이 10이므로 \( \dfrac{1}{\lambda} = 10 \)
- \( P(X > 5 + 3 \mid X > 5) = \dfrac{P(X > 8)}{P(X > 5)}
= \dfrac{e^{-8\lambda}}{e^{-5\lambda}}
= e^{-3\lambda}, \quad \lambda = \dfrac{1}{10} \)이므로 \( e^{-0.3} \approx 0.74 \)
■ 반대로, 확률을 이용해 앞으로 작동할 시간을 계산할 수 있다.
■ 예를 들어, 평균 수명이 10,000시간인 지수분포를 따르는 제품에 대해 90%의 확률로 고장 없이 작동할 확률은
- 구하는 시간을 \( x \)라 하면, \( \lambda = \dfrac{1}{10000} \)이므로 \( P(X > x) = e^{-x / 10000} = 0.9 \)이다.
- 그러므로 \( x = -(\ln 0.9) \times 10000 \approx 1.054 \)시간이 된다.
■ \( \lambda \)를 계산할 수도 있다.
■ 예를 들어, 지수 수명분포를 따르는 제품에 대해 1,000시간까지 작동할 확률이 90% 이상이길 요구한다면,
- \( P(X > 1,000) = e^{-1000 \lambda} \geq 0.9 \)이므로 \( \lambda \leq \dfrac{-\ln 0.9}{1000} = 1.054 \times 10^{-4} (\text{/시간}) \)이하여야 한다.
2.2 포아송분포와 지수분포의 관계
■ 포아송분포는 '특정 구간에서 발생하는 사건의 횟수'를 알기 위해 - 이산형
■ 지수분포는 '해당 사건들이 발생하는 시간 사이의 간격(inter-arrival time)'을 알기 위해 사용하는 확률분포이다. - 연속형
■ 즉, 어떤 사건의 발생 횟수가 포아송분포를 따르면, '그 사건들의 발생 시간 간격'은 지수분포를 따른다.
■ 반대로, 어떤 사건들의 발생 시간 간격이 지수분포를 따르면, 발생 횟수는 포아송분포를 따른다.
■ 에를 들어 \( \lambda = 3 \)(평균 3번이 발생)일 때, 발생 횟수를 나타내는 확률변수 \( X \)가 포아송분포를 따른다면, \( X \sim Poisson(3) \)이다.
■ 만약, 사건이 4번 발생했다면, 포아송분포의 확률질량함수는 \( f(x) = P(X = x) = \dfrac{\lambda^x \cdot e^{-\lambda}}{x!} \)이므로, 사건이 4번 발생할 확률은 \( P(X = 4) = \dfrac{3^4 e^{-3}}{24} \),
■ 이때, \( E(X) = \lambda = 3 \)가 된다. 그러므로 사건들 사이의 대기시간을 \( W_i \)라고 했을 때, \( W_1, W_2, W_3 \sim Exp(3) \)이 된다.
■ 이렇게 포아송분포로 생성된 event인 \( x_1, x_2, x_3, x_4 \), 이 event들 사이 시간 간격(\( W_i, \; i = 1, 2, 3 \))은 지수분포를 따른다.
■ 다시 말해, 어떤 사건의 발생 횟수가 포아송분포를 따른다면, 그 사건들의 발생 시간 사이의 간격은 지수분포를 따른다.
반대로, 어떤 것이 발생하는 시간 간격이 지수분포를 따른다면, 그 사건의 발생 횟수는 포아송분포를 따른다.
■ 예를 들어, 어떤 병원에 시간당 \( \lambda = 3 \)명의 환자가 찾아온다면, 시간 \( t \)에서 \( s \)사이 찾아온 환자의 수가 따르는 분포는
- 환자의 '수'이므로 이산형 \( \rightarrow \) 포아송분포이다.
- 사건 \( t \)에서 \( s \)사이는 다음과 같으므로
- 구간의 길이는 \( \lambda(t - s) = 3(t - s) \)가 된다. 그러므로 \( X \sim Poisson(3(t - s)) \)
■ 여기서 \( i - 1 \)번째 환자와 \( i \)번째 환자의 도착 사이의 '시간'이 따르는 분포는 \( W_i \sim Exp(3) \)이 된다.
■ 이때, \( t = 0 \)에서 \( t = 2 \)동안 환자가 한 '명'도 오지 않을 확률은 포아송분포 문제로 \( P(X = 0) = \dfrac{e^{-6} \cdot 6^0}{0!} = e^{-6} \)이 된다.
■ 바로 위의 문제를 연속형 문제로 표현하면 \( i - 1 \)번째 환자의 도착으로부터 \( i \)번째 환자의 도착까지 2시간 이상 대기할 확률은 2시간 동안 아무도 오지 않을 확률을 구하는 문제이므로 \( P(W_i \geq 2) = 1 - F(2) = 1 - (1 - e^{-3 \cdot 2}) = e^{-6} \)
3. 감마분포
■ 감마분포(gamma distribution)는 지수분포의 일반화된 형태로, 확률변수 \( X \)는 단위시간당 발생 횟수가 포아송분포를 따르는 사건 \( \alpha \)개가 발생할 때까지 걸리는 시간이다.
■ 감마분포의 확률밀도함수에는 다음과 같은 감마함수 \( \Gamma(\alpha) \)가 사용된다.
감마함수 \( \Gamma(\alpha) \)는 \( \Gamma(\alpha) = \displaystyle \int_{0}^{\infty} y^{\alpha -1} e^{-y} \, dy \)로 정의된다.
■ 이 감마함수를 부분적분하면, \( \Gamma(\alpha) = \displaystyle \int_{0}^{\infty} y^{\alpha -1} e^{-y} \, dy
= \left[ - y^{\alpha -1} e^{-y} \right]_{0}^{\infty}
+ (\alpha -1) \displaystyle \int_{0}^{\infty} y^{\alpha -2} e^{-y} \, dy
= (\alpha -1) \Gamma(\alpha -1) \)이 된다.
- \( \Gamma(1) = \displaystyle \int_{0}^{\infty} e^{-y} \, dy = 1 \)이 되며, cf) 치환적분을 이용하면 \( \Gamma\left( \dfrac{1}{2} \right) = \sqrt{\pi} \)
- \( \Gamma(\alpha) = (\alpha -1) \Gamma(\alpha -1) \)이므로, 만약 \( \alpha \)가 양의 정수 \( n \)이라면, \( \Gamma(n) = (n-1) \Gamma(n-1) = (n-1)(n-2) \Gamma(n-2) = (n-1)(n-2)(n-3) \Gamma(n-3) \cdots \)으로 전개된다. \( \Gamma(1) = 1 \)이므로
- \( \alpha \)가 양의 정수 \( n \)이면 \( n > 1 \), \( \Gamma(\alpha) = (\alpha -1) \Gamma(\alpha -1) = (n-1)(n-2) \cdots \times 2 \times 1 = (n-1)! \)이 된다.
■ 감마분포의 확률밀도함수는 다음과 같다.
\( f(x) =
\begin{cases}
\dfrac{1}{\Gamma(\alpha) \theta^\alpha} x^{\alpha -1} e^{-x/\theta}, & x > 0 \\
0, & \text{otherwise}
\end{cases} \), \( \alpha, \theta > 0 \)
- 감마분포의 확률변수 \( X \)도 '시간'이므로 관측된 값인 \( x \)는 0보다 커야 한다. \( x > 0 \)
- 감마분포의 p.d.f에서 \( \Gamma(\alpha) \)는 감마 함수이다.
■ 확률변수 \( X \)가 감마분포를 따르면 \( X \sim Gamma(\alpha, \theta) \)로 표기한다. 여기서 \( \theta = \dfrac{1}{\lambda} \)
- 파라미터 중 \( \theta = \dfrac{1}{\lambda} \)대신, \( \lambda = \dfrac{1}{\theta} \)로 하여 \( \alpha \)와 \( \lambda \)를 감마분포의 파라미터로 사용하기도 한다.
■ 여기서 \( \alpha \)는 '분포의 형태를 결정하는 형상 모수(shape parameter)', \( \theta \)는 '단위(분포의 스케일)를 결정하는 척도 모수(scale parameter)'라고 한다.
■ 감마분포의 기댓값과 분산은 다음과 같다.
\( E(X) = \alpha \theta , \quad Var(X) = \alpha \theta^2 \)
- \( E(X) = \displaystyle\int_0^\infty x \dfrac{1}{\Gamma(\alpha) \theta^\alpha} x^{\alpha -1} e^{-x/\theta} \,dx
= \displaystyle\int_0^\infty \dfrac{1}{\Gamma(\alpha) \theta^\alpha} x^\alpha e^{-x/\theta} \,dx
= \dfrac{1}{\Gamma(\alpha) \theta^\alpha} \left( \left[ -\theta x^\alpha e^{-x/\theta} \right]_0^\infty
+ \theta \displaystyle\int_0^\infty x^\alpha e^{-x/\theta} \,dx \right) \)
- 여기서 \( \left[ -\theta x^{\alpha} e^{-\dfrac{x}{\theta}} \right]_{0}^{\infty} = 0 \)이 되고, \( \alpha \)번 반복하므로 \( \dfrac{1}{\theta^{\alpha} r(\alpha)} \left( \theta^{\alpha} \cdot \alpha! \cdot \theta \right) \)가 된다.
- \( \dfrac{1}{\theta^{\alpha} r(\alpha)} \left( \theta^{\alpha} \cdot \alpha! \cdot \theta \right) = \dfrac{\theta^{\alpha+1} \alpha!}{\theta^{\alpha} (\alpha-1)!} = \alpha \theta \)
- 적률생성함수를 이용해서 더 간단하게 \( E(X), Var(X) \)를 구할 수 있다.
- \( M(t) = E \left( e^{t x} \right) = \displaystyle\int_{0}^{\infty} \dfrac{1}{\Gamma(\alpha) \theta^{\alpha}} x^{\alpha-1} e^{-\dfrac{x}{\theta}} e^{t x} \,dx = \displaystyle\int_{0}^{\infty} \dfrac{1}{\Gamma(\alpha) \theta^{\alpha}} x^{\alpha-1} e^{-\frac{1}{\theta} (1 - \theta t)x} \,dx \)
- 여기서 \( y = \dfrac{1}{\theta} (1 - \theta t)x \)로 치환하면, \( y \)에 대한 적분 범위는 그대로 0에서 \( \infty \), \( dy = \dfrac{1}{\theta} (1 - \theta t) \,dx \Rightarrow dx = \dfrac{\theta}{1 - \theta t} \,dy \)이고, \( x = \dfrac{\theta}{1 - \theta t} y, \quad x^{\alpha-1} = \left( \dfrac{\theta}{1 - \theta t} y \right)^{\alpha-1} \)이므로
- \( \displaystyle\int_{0}^{\infty} \dfrac{1}{\Gamma(\alpha) \theta^{\alpha}} \dfrac{\theta^{\alpha}}{(1 - \theta t)^{\alpha}} y^{\alpha-1} e^{-y} dy = \dfrac{1}{(1 - \theta t)^{\alpha}} \displaystyle\int_{0}^{\infty} \dfrac{1}{\Gamma(\alpha)} y^{\alpha-1} e^{-y} \,dy \)가 된다.
- \( \displaystyle\int_{0}^{\infty} \dfrac{1}{\Gamma(\alpha)} y^{\alpha-1} e^{-y} \,dy \)는 전체 구간에 대한 적분이므로 \( \displaystyle\int_{0}^{\infty} \dfrac{1}{\Gamma(\alpha)} y^{\alpha-1} e^{-y} \,dy = 1 \)이다. 그러므로 감마분포의 적률생성함수는 \( m(t) = \dfrac{1}{(1 - \theta t)^{\alpha}} \)가 된다.
- \( m'(t) = \dfrac{d}{dt} \left( \dfrac{1}{(1 - \theta t)^{\alpha}} \right) = (-\alpha)(1 - \theta t)^{-\alpha-1} (-\theta) = \alpha \theta (1 - \theta t)^{-(\alpha+1)} \)이므로
- \( E(X) = m'(0) = \alpha \theta \)가 된다.
- \( m''(t) = \dfrac{d}{dt} \left( \alpha \theta (1 - \theta t)^{-(\alpha+1)} \right) = \alpha (\alpha+1) \theta^2 (1 - \theta t)^{-\alpha-2} \)이므로
- \( \operatorname{Var}(X) = m''(0) - \left[ m'(0) \right]^2 = \alpha (\alpha+1) \theta^2 - \alpha^2 \theta^2 = \alpha \theta^2 \)이 된다.
3.1 감마분포와 지수분포의 관계
■ 앞서, 감마분포는 지수분포의 일반화된 형태라고 하였다.
■ 먼저, \( \alpha = 1 \)인 감마분포는 지수분포와 동일한 것을 확인할 수 있다.
\( Gamma(1, \lambda) = Exponential(\lambda) \)
- \( lambda \)는 단위시간당 발생하는 이벤트의 평균 건수이다.
- \( X \sim Gamma(1, \lambda \)이면, \( f(x) = \dfrac{1}{r(1) \theta} x^{1-1} e^{-x/\theta} = \dfrac{1}{\theta} e^{-x/\theta} \)
- \( \lambda = \dfrac{1}{\theta} \)로 치환하면, \( \dfrac{1}{\theta} e^{-x/\theta} = \lambda \cdot e^{-\lambda x} \)가 된다.
■ 그러므로, 지수분포를 따르고 모두 독립인 \( X_1, X_2, \cdots, X_{\alpha} \)가 \( Exp(\lambda) \)를 따른다면, \( X_1 + X_2 + \cdots + X_{\alpha} \)는 \( Gamma(\alpha, \theta) \)를 따른다고 할 수 있다.
■ 다시 말해, 감마분포와 지수분포의 관계는 '독립적으로, 동일한 지수분포를 따르는 확률변수의 합은 감마분포를 따른다.(= 지수분포의 합은 감마분포가 된다.)'
■ 즉, 지수분포를 따르는 \( X_1, X_2, \dots, X_{\alpha} \overset{\text{iid}}{\sim} \operatorname{Exp}(\lambda = \dfrac{1}{\theta}) \)이면, 지수분포를 따르는 \( X_1, X_2, \cdots, X_{\alpha} \)의 합은 감마분포를 따른다. \( \displaystyle\sum_{i=1}^{\alpha} X_i \sim \operatorname{Gamma}(\alpha, \theta) \)
■ \( \alpha \)는 지수분포의 총 개수이므로, 지수분포를 따르는 \( X_1, X_2, X_3, X_4 \)가 있다면, 이들의 합인 \( X_1 + X_2 + X_3 + X_4 \)는 \( Gamma(4, \theta) \)를 따른다. \( X_1 + X_2 + X_3 + X_4 \sim Gamma(4, \theta) \)
■ 이는 \( \lambda = \dfrac{1}{\theta} \)를 매개변수로 사용하는 포아송 과정에서 \( \alpha \)개의 사건이 발생하는데 걸리는 시간은, 매개변수로 \( \alpha \)와 \( \lambda = \dfrac{1}{\theta} \)를 사용하는 감마분포임을 의미한다.
■ 예를 들어, 어떤 식당에 손님이 평균적으로 시간당 2명 발생하는데, \( \lambda = 2 \left( \Leftrightarrow \theta = \dfrac{1}{2} \right) \)
현재 남은 재고가 3인분이다. 모든 재고가 소진되는 시간(= 확률변수 \( X \))이 1시간 이상 3시간 이하일 확률은
- 손님이 오는 것을 'event가 발생'하는 것으로 생각하면, 모든 재고가 소진되는 시간은 손님 3명이 도착할 때까지 걸리는 시간(= 이벤트가 3번 발생할 때까지 기다린 시간)
- \( \lambda = 2 \)인 포아송 과정에서 \( \alpha = 3 \)개의 사건이 발생하는데 걸리는 시간이다. 그러므로 재고가 소진되는 시간은 감마분포 \( X \sim Gamma(3, \dfrac{1}{2}) \)로 모형화할 수 있다.
cf) \( X = X_1 + X_2 + X_3 \)이라면, \( X \sim Gamma(3, \dfrac{1}{2} \Leftrightarrow X_1 + X_2 + X_3 \overset{\text{iid}}{\sim} \operatorname{Exp}(\lambda = 2 \), 여기서 \( X_1, X_2, X_3 \)은 지수분포를 따르는 확률변수
- 모든 재고가 소진되는 시간이 1시간 이상 3시간 이하일 확률이므로 \( p(1 \leq X \leq 3) = \displaystyle\int_{1}^{3} f(x) \,dx = \displaystyle\int_{1}^{3} \dfrac{2^3}{\Gamma(3)} x^{3-1} e^{-2x} \,dx \)를 계산하면 된다.
4. 베타분포
■ 베타분포(beta distribution)는 두 개의 모수(파라미터) \( \alpha \)(형상 모수 또는 성공 횟수)와 \( \beta \)(형상 모수 또는 실패 횟수)에 따라 구간 [0, 1]에서 다양한 분포형태를 갖는 분포로서, 주로 어떤 비율( ex) 불량률, 작동률, 불순율 등)을 설명할 때 사용한다.
■ 베타분포의 확률밀도함수(p.d.f)의 형태는 다음과 같다.
\( f(x) = c \, x^{\alpha-1} (1-x)^{\beta-1}, \quad 0 \leq x \leq 1, \quad \alpha, \beta > 0 \)
■ 이 확률밀도함수의 식이 확률분포를 만족하려면 관측값의 범위가 \( 0 \leq x leq 1 \)이므로, 0과 1사이의 적분 값이 1이 되어야 한다.
■ 이때 다음과 같이 정의된 베타함수 \( B(\alpha, \beta) \)를 사용하면,
\( B(\alpha, \beta) = \displaystyle\int_{0}^{1} x^{\alpha-1} (1-x)^{\beta-1} \,dx = \dfrac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)} \)
확률밀도함수 \( f(x) \)의 계수 \( c \)는 베타함수의 역수가 된다.
■ 확률변수 \( X \)가 다음과 같은 확률밀도함수를 가질 때,
\( f(x) =
\begin{cases}
\dfrac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1}, & 0 \leq x \leq 1, \\
0, & \text{otherwise}
\end{cases} \), \( \quad \alpha, \beta > 0 \)
\( X \)는 베타분포를 가진다. \( X \sim Beta(\alpha, \beta) \)
■ 베타분포의 기댓값과 분산은 다음과 같다.
\( E(X) = \dfrac{\alpha}{\alpha+\beta}, \quad \operatorname{Var}(X) = \dfrac{\alpha \beta}{(\alpha+\beta)^2 (\alpha+\beta+1)} \)
- \( E(X) = \displaystyle\int_{0}^{1} x f(x) \,dx = \displaystyle\int_{0}^{1} x \dfrac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1} \,dx = \dfrac{1}{B(\alpha, \beta)} \displaystyle\int_{0}^{1} x^{\alpha} (1-x)^{\beta-1} \,dx \)
\( = \dfrac{B(\alpha+1, \beta)}{B(\alpha, \beta)} = \dfrac{\Gamma(\alpha+1) \Gamma(\beta)}{\Gamma(\alpha+1+\beta)} \cdot \dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} = \dfrac{\alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha+\beta) \Gamma(\alpha+\beta)} \cdot \dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} = \dfrac{\alpha}{\alpha+\beta} \)
- cf) \( \Gamma(\alpha + 1) = \alpha \Gamma(\alpha), \quad \Gamma(\alpha + \beta + 1) = (\alpha + \beta) \Gamma(\alpha + \beta) \)인 이유는 \( \Gamma(x+1) = \displaystyle\int_{0}^{\infty} e^{-t} t^x \,dt = \left[ -e^{-t} t^x \right]_{0}^{\infty} + x \displaystyle\int_{0}^{\infty} e^{-t} t^{x-1} \,dt = x \Gamma(x) \)
- \( E(X^2) \)도 동일한 방법으로 진행하면 \( \dfrac{\alpha (\alpha+1)}{(\alpha+\beta+1) (\alpha+\beta)} \)
- cf) \( \Gamma(x+2) = (x+1) \Gamma(x+1) = x(x+1) \Gamma(x) \)를 이용
- \( Var(X) = E(X^2) - \left(E(X)\right)^2 = \dfrac{\alpha (\alpha+1)}{(\alpha+\beta+1) (\alpha+\beta)} - \left( \dfrac{\alpha}{\alpha+\beta} \right)^2 = \dfrac{\alpha \beta}{(\alpha+\beta)^2 (\alpha+\beta+1)} \)
■ \( X \sim Beta(\alpha, \beta) \)에서 \( \alpha = \beta \)이면, 분포는 대칭을 이룬다.
■ \( \alpha = \beta = 1 \)이면, 확률밀도함수 \( f(x) \)는 \( 0 \leq x \leq 1 \)에서 \( f(x) = \dfrac{1}{B(1,1)} x^{1-1} (1-x)^{1-1} = 1 \)이 된다. 즉, 균등분포가 된다.
- 베타분포의 기댓값과 분산에 \( \alpha = \beta = 1 \)을 넣으면 \( E(X) = \dfrac{1}{2}, \quad Var(X) = \dfrac{1}{12} \)가 된다.
'확률' 카테고리의 다른 글
연속형 확률분포(3) - 정규분포와 관련분포(2) (0) | 2025.02.17 |
---|---|
연속형 확률분포(3) - 정규분포와 관련분포(1) (0) | 2025.02.15 |
연속형 확률분포 (1) (0) | 2025.02.14 |
적률생성함수 (0) | 2025.02.14 |
이산형 확률분포 (0) | 2025.02.14 |