■ '표본공간(sample sapce)'는 실험으로부터 나온 모든 결과를 담고 있는 집합이다.
■ 실험으로부터 나온 개별 결과들(표본공간의 원소들)을 실수로 변환할 때 필요한 함수가 '확률변수(random variable)'이다. 표본공간의 원소들을 확률변수라는 함수의 입력으로 넣으면 실수(real number)가 출력된다.
■ 확률변수로부터 나온 실수를 '확률'로 바꾸기 위한 함수는 '확률 함수'이다. 즉, 실수를 확률 함수의 입력으로 넣으면 확률이 출력된다.
■ 확률 함수의 출력으로 나오는 '확률들의 패턴'이 '확률분포'이다.
■ 정리하면,
- (1) 표본공간의 원소인 실험으로부터 나온 모든 결과를 '확률변수'라는 함수에 넣어서 실수로 변환한다.
- (2) 변환된 실수들을 '확률함수'에 넣으면 확률이 출력된다. 이때 나오는 확률들의 패턴을 '확률분포'라고 한다.
- 이때, 확률 함수의 종류는 여러가지가 있다. 그러므로 다양한 패턴들의 확률분포가 존재한다.
■ 확률 함수의 입력이 이산형이면, 확률 함수는 '확률질량함수(probability mass function)', 연속형이면 확률 함수는 '확률밀도함수(probability density function)를 사용한다.
■ 변환된 실수들이 이산형이면, 이 실수들은 확률질량함수의 입력으로 들어가서 확률들로 출력된다. 이때의 확률들은 다음 그림과 같이 이산형 확률분포의 패턴을 가지고
변환된 실수들이 연속형이면, 확률밀도함수의 출력으로 나오는 확률들은 다음 그림과 같이 연속형 확률분포의 패턴을 가지게 된다.
1. 이산균일분포
■ 이산균일분포(discrete uniform distribution)는 '\( n \)개의 결과 값이 균일한 확률로 발생하는 확률분포'를 말한다. 즉, 이산균일분포의 확률질량함수의 식은 \( f(x) = \dfrac{1}{n}, \quad x = 1, 2, \cdots, n \)이다.
■ 이산균일분포의 기댓값과 분산에 대한 식은 다음과 같다.
\( E(X) = \displaystyle\sum_{x=1}^{n} x \cdot f(x) = \displaystyle\sum_{x=1}^{n} x \cdot \dfrac{1}{n} = (1+2+\cdots+n) \cdot \dfrac{1}{n} = \dfrac{n(n+1)}{2} \cdot \dfrac{1}{n} = \dfrac{n+1}{2} \)
\( Var(X) = E(X^2) - (E(X))^2 = \displaystyle\sum_{x=1}^{n} x^2 \cdot f(x) = (1^2 + 2^2 + \cdots + n^2) \cdot \dfrac{1}{n} - \left( \dfrac{n+1}{2} \right)^2 = \dfrac{n(n+1)(2n+1)}{6} \cdot \dfrac{1}{n} - \left( \dfrac{n+1}{2} \right)^2 = \dfrac{(n+1)(2(2n+1) - 3(n+1))}{12} = \dfrac{(n+1)(n-1)}{12} \)
■ 예를 들어, 1에서 20까지 번호가 적혀 있는 동일한 20개의 공이 들어 있는 상자에서 임의로 하나의 공을 꺼냈을 때 나온 번호를 \( X \)라고 하면
- 확률변수 \( X \)의 확률(분포)함수는 \( f(x) = \dfrac{1}{20}, \quad x = 1, 2, \cdots, 20 \)
- \( X \)의 기댓값과 분산은 E(X) = 10.5, Var(X) = 33.25
- 15이상의 번호가 나올 확률은 번호가 15부터 20인 공을 꺼냈을 때의 확률이므로 \( P( X \geq 15) = \displaystyle\sum_{x=15}^{20} \dfrac{1}{20} = 0.3 \)
2. 이항분포
2.1 베르누이 분포
■ 베르누이 분포(Bernoulli distribution)는 '성공 확률이 일정한 1회의 시행(trial)에서 나오는 성공 횟수의 확률분포'를 말한다.
■ 여기서 시행은 베르누이 시행(Bernoulli trial)을 말한다. 즉, 베르누이 시행에서 성공여부를 나타내는 확률변수는 베루느이 분포를 따른다.
- 베르누이 시행은 동전 던지기, 질병 진단, 찬반 투표, 자유투 던지기 등, 결과가 두 가지로 한정되는 확률 실험(=시행)을 의미한다.
- 베르누이 시행의 조건은 다음과 같다.
-- ① 각 시행의 결과는 성공(\( S \)) 또는 실패(\( F \))
-- ② 성공 확률이 \( P(S) = p \)라면, 실패 확률 \( P(F) = 1 - p \)
-- ③ '각 시행은 독립'. 즉, 이전 시행의 결과가 다음 시행 결과에 영향을 주지 않는다.
■ 베르누이 분포를 따르는 확률변수의 확률질량함수는 성공, 실패에 대한 확률을 반환해야 하므로 다음과 같다.
\( f(x) =
\begin{cases}
p, & \text{if } x = 1 \\
1 - p, & \text{if } x = 0
\end{cases} \)
이를 축약하여 \( f(x) = p^x (1 - p)^{1-x}, \quad x = 0, 1 \)로 나타낼 수 있다.
■ 예를 들어, 주사위 2개를 던졌을 때, 두 눈의 합이 6일 확률은 \( p = \dfrac{5}{36} \)이므로 \( p^x (1 - p)^{1 - x} = \left( \dfrac{5}{36} \right)^1 \times \left( \dfrac{31}{36} \right)^{1-1} = \dfrac{5}{36} \)이 된다.
- 이 예의 전제는 성공이므로 \( x = 1 \)이다.
■ 베르누이 확률변수 \( X \)의 기댓값과 분산은 다음과 같다.
\( E(X) = \displaystyle\sum_{x=0}^{1} x \cdot f(x) = \displaystyle\sum_{x=0}^{1} x \cdot p^x (1 - p)^{1 - x} = 0 \times (1 - p) + 1 \times p = p \)
\( Var(X) = E(X^2) - \left( E(X) \right)^2 = p - p^2 = p(1 - p) \)
2.2 이항분포
■ 이항분포(binomial distribution)는 성공 확률이 \( p \)인 베르누이 시행을 독립적으로 \( n \)회 시행했을 때, 나오는 총 성공 횟수 \( X \)의 분포이다.
■ 확률변수인 총 성공 횟수 \( X \)가 이항분포를 따르면 \( X \sim B(n. p) \)로 표기한다. 여기서 \( n \)은 시행 횟수, \( p \)는 성공 확률이다.
cf) 베르누이 분포는 시행 횟수가 1회인 이항분포의 특수 케이스로 \( B(1, p) \)로 표기한다.
■ 성공 확률이 \( p \)인 베르누이 시행을 \( n \)회 시행했을 때, 총 성공 횟수를 나타내는 확률변수 \( X \)의 확률질량함수는 다음과 같다.
\( f(x) = \displaystyle\binom{n}{x} p^x (1 - p)^{n - x} \quad \Leftrightarrow nCx \, p^x (1 - p)^{n - x}, \quad x = 0, 1, 2, \dots, n \)
■ 즉, 성공 확률이 일정한 \( n \)회의 독립 시행에서 나오는 성공 횟수의 분포는 이항분포가 된다.
■ \( X_i \)를 \( i \)번째 베르누이 시행에서의 확률변수, \( n \)회의 독립 시행에서 나오는 성공 횟수를 \( X \)라 하면, \( X = \displaystyle\sum_{i=1}{n} X_i \)가 된다. 따라서 이항분포의 기댓값과 분산은 다음과 같다.
\( E(X) = \displaystyle\sum_{i=1}^{n} E(X_i) = \displaystyle\sum_{i=1}^{n} p = np \)
\( Var(X) = \displaystyle\sum_{i=1}^{n} Var(X_i) = \displaystyle\sum_{i=1}^{n} p(1 - p) = np(1 - p) \)
- \( X = \displaystyle\sum_{i=1}{n} X_i \)가 성립하는 이유는 이항분포의 확률변수 \( X \)는 베르누이 분포를 따르는 \( n \)개의 독립적인 확률변수(\( X_1, X_2, \cdots, X_n \))의 합으로 볼 수 있기 때문이다.
■ 예를 들어, 성공률이 p인 선수가 자유투를 3번 던져서 2번 성공할 확률은 3가지 경우가 존재한다.
- (1) 앞의 2번은 성공 & 마지막에서 실패, (2) 처음과 마지막은 성공, 두 번째에서 실패, (3) 첫 번째에서 실패 & 나머지는 성공
- 이 3가지 경우를 나열하면,
- (1) \( p \times p \times (1 - p) = (1 - p) p^2 \)
- (2) \( p \times (1 - p) \times p = (1 - p) p^2 \)
- (3) \( (1 - p) \times p \times p = (1 - p) p^2 \)
- 따라서 2번 성공할 확률은 \( P(X = 2) = (1 - p) p^2 + (1 - p) p^2 + (1 - p) p^2 = 3 \cdot (1 - p) p^2 \)이 된다.
- 이 예에서 \( X \)는 베르누이 분포를 따르는 3개의 독립적인 확률변수 \( X_1, X_2, X_3 \)의 합인 것을 확인할 수 있다.
■ 예를 들어, 불량품이 5%인 공정에서 5개의 제품을 테스트했을 때, 적어도 하나의 불량품을 발견할 확률은
- 확률변수 \( X \)가 불량품 개수라고 하면, \( X \sim B(5, 0.05) \)이며, 적어도 하나의 불량품을 발견할 확률은 \( P(X \geq 1) \)이다.
- \( P(X \geq 1) = 1 - P(X < 1) = 1 - P(X = 0) \)이며 \( P(X = 0) \)은 불량품을 하나도 뽑지 못할 확률이다.
- 불량품을 뽑는 것이 성공이라면 \( p = 0.05 \)이므로 불량품을 뽑지 못하는 것은 \( 1 - p = 0.95 \)이다.
- 그러므로 \( P(X \geq 1) = 1 - (0.95)^5 \approx 0.22 \)가 된다.
■ 확률변수가 이항분포를 따르면 \( X \sim B(n, p) \)로 나타내며 \( n \)은 시행 횟수, \( p \)는 성공 확률이라고 하였다. 이때 \( n \)과 \( p \)를 모수(parameter)라고 한다.
■ 이런 파라미터에 의해 확률분포의 모양(확률 함수로부터 나온 확률들의 패턴)이 결정된다.
■ 그리고 각 분포의 기댓값과 분산은, 각 확률 함수의 파라미터의 함수 형태로 표현된다.
- 이항분포의 파라미터는 \( n \)과 \( p \), 2개이다. 위에서 이항분포의 기댓값과 분산을 보면 \( n, p \)로 이뤄진 형태임을 볼 수 있다.
■ \( X \)가 이항확률변수(binomial random variable)일 때, 파라미터가 \( n \)과 \( p \)이다. 여기서 \( p \)는 성공 '확률'이므로 0~1 사이의 값을 갖는다. 그리고 \( n \)은 시행 횟수이므로 \( n \geq 0 \)
■ \( X \)가 이항확률변수일 때, \( P(X = k) \)라면 \( k = 0, 1, 2, \cdots, n \)이다. 이때 \( P(X = k) \)라는 확률은 다음과 같이 증가 \( \rightarrow \) 감소의 패턴을 가진다.
■ 위의 그래프에서 증가 \( \rightarrow \) 감소하는 꼭대기(극대) 지점이 \( (n + 1)p \)이다.
■ 확률이 최대가 되는 꼭대기 지점을 찾으려면 \( P(X = k) \geq P(X = k - 1) \) 조건을 만족하는 \( k \)를 찾으면 된다.
- \( k \)값이 증가한다고 생각하면, \( P(X = k-1) \leq P(X = k) \)는 확률이 증가하는 지점, \( P(X = k-1) \geq P(X = k) \)는 확률이 감소하기 시작하는 지점을 나타낸다고 볼 수 있다.
■ \( P(X=k) \geq P(X = k - 1) \Leftrightarrow \dfrac{P(X=k)}{P(X=k-1)} \geq 1 \)이다.
- 위의 식에서 \(
\dfrac{P(X = k)}{P(X = k - 1)}
\)을 이항분포의 확률질량함수를 이용하여 전개하면
- \( \dfrac{P(X = k)}{P(X = k - 1)}
= \dfrac{\dfrac{n!}{(n-k)! k!} p^k (1 - p)^{n - k}}{\dfrac{n!}{(n-k+1)! (k-1)!} p^{k-1} (1 - p)^{n - k + 1}}
= \dfrac{(n - k + 1) p}{k (1 - p)} \geq 1 \Rightarrow (n - k + 1)p \geq k(1 - p) \)
- 찾아야 하는 것은 \( k \)이다. \( (n - k + 1)p \geq k(1-p) \Rightarrow np - kp + p \geq k - kp \Rightarrow k \leq (n+1)p \)가 된다. 즉, \( (n+1)p \)일 때, 다음과 같이 \( k \)에서 확률값의 최고점을 찍는다.
■ 예를 들어 이항분포가 \( \displaystyle\binom{5}{x} (0.7)^x (0.3)^{5-x} \)라면, \( n = 5, p = 0.7 \)이므로 \( k \leq (n + 1) \cdot p \Rightarrow k \leq 6 \cdot \dfrac{7}{10} \Rightarrow k \leq 4.2 \)
- 4.2보다 작은 큰 정수는 4이다. 따라서 \( k = 4 \)이며, 다음 그림과 같이 \( k = 4 \) 전까지는 확률이 증가하는 패턴을, \( k = 4 \) 이후에는 확률이 떨어지는 패턴을 보인다.
3. 기하분포
■ 기하분포(geometric distribution)는 성공 확률이 \( p \)인 베르누이 시행을 1회 성공할 때까지(첫 번째 성공이 발생할 때까지) 독립 시행할 때, 총 시행 횟수 \( X \)의 분포이다.
■ 확률변수인 총 시행 횟수 \( X \)가 기하분포를 따르면, \( X \sim G(p) \)로 표기한다.
■ \( x \)번째 시행에서 첫 번째 성공이 발생하려면, 그 이전의 \( x - 1 \)번의 시행에서 연속으로 '실패'가 나와야 한다.
- 첫 번째에 성공하면 \( P(X = 1) = p \)
- 두 번째에 성공하면 \( P(X = 2) = (1 - p) \cdot p \)
- 세 번째에 성공하면 \( P(X = 3) = (1 - p)(1 - p) \cdot p = (1 - p)^2 \cdot p \)
- 네 번째에 성공하면 \( P(X < 4) = (1 - p)(1 - p)(1 - p) \cdot p = (1 - p)^3 \cdot p \)가 된다.
- 따라서 \( k \)번째에 성공하면 \( P(X = k) = (1 - p)^{k - 1} \cdot p \)가 된다.
■ 그러므로 성공 확률이 \( p \)로 일정한 베르누이 시행에서 첫 번째 성공이 발생할 때까지 시행한 횟수를 나타내는 확률변수 \( X \)의 확률질량함수는 다음과 같다.
\( f(x) = P(X = x) = (1 - p)^{x-1} \cdot p, \quad x = 1, 2, \cdots \)
■ 예를 들어, 주사위 1개로 눈금 6이 나올 때까지 반복한다면, \( p = \dfrac{1}{6} \)이므로 \( X \sim G(\dfrac{1}{6}) \)이 된다. 이때의 확률(분포)함수는 \( f(x) = \left( \dfrac{5}{6} \right)^{x-1} \cdot \dfrac{1}{6}, \quad x = 1, 2, 3, \cdots \)이 되며
- 만약, 3회 시행 이내에 눈금 6이 나왔다면, 그 확률은 \( 1 - \left( \dfrac{5}{6} \right)^3 \)이 된다.
cf) 기하확률변수 \( X \)의 누적분포함수는 '실패 확률'을 \( q = 1 - p \)라고 했을 때, \( F(x) = \displaystyle\sum_{y=1}^{x} (1 - p)^{y - 1} \cdot p
= \dfrac{p \left[ 1 - (1 - p)^x \right]}{1 - (1 - p)}
= 1 - q^x, \quad x = 1, 2, \dots \)
■ 기하분포의 기댓값은 다음과 같다.
(1) \( E(X) = \displaystyle\sum_{x=1}^{\infty} x \cdot f(x)
= \displaystyle\sum_{x=1}^{\infty} x \cdot (1 - p)^{x - 1} \cdot p
= p + 2(1 - p) p + 3(1 - p)^2 p + \dots \)
(2) \( (1 - p) \cdot E(X) = (1 - p) \cdot p + 2(1 - p)^2 p + 3(1 - p)^3 p + \dots \), \( 1- p \)는 실패 확률
(1) - (2): \( E(X) - (1 - p) \cdot E(X) = p \cdot E(X) = p + (1 - p) p + (1 - p)^2 p + (1 - p)^3 p + \cdots = \dfrac{p}{1 - (1 - p)} = 1 \)
\( P \cdot E(X) = 1 \)이므로 \( E(X) = \dfrac{1}{p} \)
- \( P \cdot E(X) \)에 대한 식은 무한 등비급수. 초항을 \( p \), 공비를 \( r \), \( \dfrac{\text{초항}}{1-r} = \dfrac{p}{1 - (1 - p)} \)
■ 기하분포의 분산은 다음과 같다.
- \( E(X^2) = \displaystyle\sum_{x=1}^{\infty} x^2 (1 - p)^{x - 1} \cdot p \)
- \( \displaystyle\sum_{n=1}^{\infty} r^n = \dfrac{1}{1 - r}, \quad (-1 < r < 1) \)에서 \( r \)에 대해 미분하면, \( \displaystyle\sum_{n=1}^{\infty} n \cdot r^{n-1} = \dfrac{1}{(1 - r)^2} \)이 되고, 다시 \( r \)에 대해 미분하면 \( \displaystyle\sum_{n=1}^{\infty} n (n - 1) r^{n-2} = \dfrac{2}{(1 - r)^3} \)이 된다. 양변에 \( r \)을 곱하면 \( \displaystyle\sum_{n=1}^{\infty} n (n-1) r^{n-1} = \dfrac{2r}{(1 - r)^3} \)
- \( \begin{aligned} E(X^2) &= \sum_{x=1}^{\infty} x^2 p (1 - p)^{x-1} = p \sum_{x=1}^{\infty} x^2 q^{x-1} \quad (q = 1 - p) \\ &= p \sum_{x=1}^{\infty} x (x - 1) q^{x-1} + p \sum_{x=1}^{\infty} x \cdot q^{x-1} \\ &= \dfrac{p \cdot 2q}{(1 - q)^3} + \dfrac{p}{(1 - q)^2} = \dfrac{2(1 - p)}{p^2} + \dfrac{1}{p} = \dfrac{2 - p}{p^2} \end{aligned} \)
- \( Var(X) = E(X^2) - \left( E(X) \right)^2
= \dfrac{2 - p}{p^2} - \dfrac{1}{p^2}
= \dfrac{1 - p}{p^2} \)
- 기하분포의 파라미터는 \( p \), 1개이다. 그러므로 위와 같이 기하분포의 기댓값과 분산은 파라미터 \( p \)의 함수 형태로 표현되는 것을 볼 수 있다.
3.1 기하분포의 비기억 특성(memoryless property)
■ 기하분포는 이산확률분포 중에서 유일하게 비기억 특성(=무기억성)을 갖는다.
■ 비기억성이란, 과거에 밠애한 일에 의해 앞으로 발생할 일이 영향을 받지 않는 성질을 말한다.
■ 비기억성은 예를 들어, 주사위 '3'이 나올 때까지 주사위를 계속 굴리는데, 10,000번 동안 눈금'3'이 나오지 않았더라도 다음 시행인 10,001번째 시도에서 눈금'3'이 나올 확률은 변함이 없다.
■ 이러한 비기억 특성을 수식으로 나타내면 다음과 같다.
\( P(X = n + k \mid X > n) = P(X = k) \)
또는
\( P(X > n + k \mid X > n) = P(X > k) \)
- 여기서 \( n, k = 1, 2, 3, \cdots \)이며, \( n \)은 이미 시행한 횟수, \( k \)는 추가로 시행할 횟수
■ 즉, 조건부 확률 \( P(X = n + k \mid X > n) = P(X = k) \)와 \( P(X > n + k \mid X > n) = P(X > k) \)가 의미하는 것은 \( n \)번의 시행 후에 추가로 \( k \)번 더 시행했을 때의 확률은, 처음에 \( k \)번 시행했을 때의 확률과 동일하다는 것이다.
■ 다시 말해, 이전의 시행 결과는 다음 시행의 확률에 전혀 영향을 주지 않는다.
\( P(X = n + k \mid X > n)
= \dfrac{P(X = n + k \cap X > n)}{P(X > n)}
= \dfrac{P(X = n + k)}{1 - P(X \leq n)}
= \dfrac{p (1 - p)^{n + k - 1}}{(1 - p)^n}
= p (1 - p)^{k - 1} = P(X = k) \)
- \( P(X = n + k \cap X > n) = P(X = n + k) \)가 성립하는 이유는 \( A \)를 \( X = n + k \), \( B \)를 \(
X > n \)이라고 했을 때, \( A \)는 \( B \)에 비해 최소 \( k \)번이 더해진 것이기 때문이다. 즉, \( A \)가 \( B \)를 포함하기 때문이다.
- 그러므로 부등호가 \( > \)로 바뀌어도 \( P(X > n + k \mid X > n) = P( X > k \)가 성립하는 것이다.
4. 음이항분포
■ 음이항분포(negative binomial distribution)는 기하분포의 개념을 일반화한 것으로, 성공 확률이 \( p \)인 베르누이 시행을 \( r \)번째에서 성공이 발생할 때까지 시행할 때 독립 시행 횟수 \( X \)의 분포이다.
■ 확룰변수 \( X \)가 음이항분포를 따른다면, \( X \sim NB(p, r) \)로 표기한다. 즉, 음이항 분포는 '\( r \)'번째 성공할 횟수, 성공 확률 '\( p \)'라는 2개의 모수(parameter)를 갖는다.
cf) 기하분포는 음이항분포의 특수한 케이스로 \( r = 1 \)인 경우이다. 그러므로 확률변수 \( X \)가 기하분포를 따른다면, \( X \sim G(p) \Leftrightarrow X \sim NB(1, p) \)로 표현할 수 있다.
■ 그 이유는, 음이항분포에서 \( P(X = x) \)는 정확히 \( x \)번째 시행에서 \( r \)번째 성공이 발생할 확률은, 그 이전의 \( x - 1 \)번의 시행에서 \( r - 1 \)번의 '성공'이 나와야 하고 마지막 시행(\( x \)번째 시행)에서 '성공'이 나와야 \( x \)번째 시행에서 \( r \)번째 '성공'이 발생한 것이기 때문이다.
■ 예를 들어 \( S \)를 '성공', \( F \)를 '실패'라고 한다면 다음과 같은 상황이다.
■ 이를 수식으로 표현하면, 성공 확률이 \( p \)로 일정한 베르누이 시행에서 주어진 횟수(\( r \))의 성공이 발생할 때까지, 총 시행 횟수를 확률변수 \( X \)의 확률질량함수는
\( f(x) = P(X = x) = \displaystyle\binom{x-1}{r-1} p^r \cdot (1-p)^{x-r}, \quad x = r, r+1, \cdots \)
- \( r \)번째에서 '성공'을 보기 위해서 \( x \)번의 시행이 필요한 확률을 의미한다.
- 식의 의미는 \( x \)번째 전에( \( x - 1 \)번째 까지) \( r - 1 \)번 성공을 해야 하고, \( x-1 C r-1 \), 이때 \( r - 1 \)번 성공하고 \( x - r \)번은 실패한 상황의 확률은 \( x-1 C r-1 p^{r-1} (1-p)^{x-r} \)
- 그리고 그 다음 시도에서( \( x \)번째에서) 1번 성공해야 하므로 \( x-1 C r-1 p^{r-1} (1-p)^{x-r} p = x-1 C r-1 p^r (1-p)^{x-r} \)
- 그러므로 \( P(X = x) = x-1 C r-1 p^r (1-p)^{x-r} \)의 의미는 \( r \)번 성공할 때까지 필요한 시행 횟수가 \( x \)번일 확률이다.
- 따라서 \( x \)가 가질 수 있는 값은 '\( r \)번째 성공할 때까지'이므로 최소 \( r \)부터이다. (최소 \( r \)번은 시행해야 한다.)
■ \( i \)번째 성공까지의 시행 횟수를 \( W_i \)라고 할 때, 각각의 성공 후 다음 성공까지의 시행 횟수를 나타내는 확률변수를 \( W_1, W_2 - W_1, W_3 - W_2, \cdots, W_r - W_{r-1} \)이라고 하자.
- \( W_1 \)은 처음 성공, \( W_2 - W_1 \)은 2번째 성공, \( \cdots \)
■ 확률변수 \( W_1, W_2 - W_1, W_3 - W_2, \cdots \)의 결합확률질량함수는 다음과 같다.
\( f_{W_1, W_2 - W_1, \dots, W_r - W_{r-1}} (x_1, \dots, x_r)
= P(W_1 = x_1, W_2 - W_1 = x_2, W_3 - W_2 = x_3, \dots, W_r - W_{r-1} = x_r) \)
\( = P \Big( \text{연속된 } (x_i - 1) \text{회의 실패 후 성공}, \; i = 1, \dots, r \Big) = \Big( (1 - p)^{x_1 - 1} p \Big) \Big( (1 - p)^{x_2 - 1} p \Big) \cdots \Big( (1 - p)^{x_r - 1} p \Big) \)
\( = P(W_1 = x_1) \cdot P(W_2 - W_1 = x_2) \cdots P(W_r - W_{r-1} = x_r) \) # 주변확률질량함수
\( = f_{W_1}(x_1) \cdot f_{W_2 - W_1}(x_2) \cdots f_{W_r - W_{r-1}}(x_r) \)
- \( W_1, W_2 - W_1, \cdots, W_r - W_{r-1} \)은 서로 독립이고 동일한 기하분포 \( G(p) \)를 따른다.
■ 궁극적으로 구하고 싶은 \( r \)번째에 성공이 일어난 시행 횟수'는 \( r \)개의 독립된 기하분포 \( G(p) \)를 따르는 \( W_1, W_2 - W_1, \cdots, W_r - W_{r-1} \) 확률변수의 합으로 다음과 같이 표현할 수 있다.
\( W_r = W_1 + (W_2 - W_1) + \cdots + (W_r - W_{r-1}) \)
\( W_r \)을 음이항분포의 확률변수 \( X \)라고 한다면,
\( X \sim NB(r, p) \Leftrightarrow X = \displaystyle\sum_{i=1}^{r} X_i \)
■ 즉, 음이항분포(\( NB(r, p) \))는 기하분포 \( r \)개의 합이다. '기하분포 \( r \)개의 합'을 음이항분포라고 부르며, 이는 \( r \)번 성공할 때까지의 시행 횟수를 나타내는 분포이다.
■ 정리하면, \( X_1, X_2, \cdots , X_r \)가 독립이고 동일한 기하분포를 따르는 확률변수라면, \( X = \displaystyle\sum_{i=1}^{r} X_i \)의 분포는 음이항분포를 따른다.
■ \( X_1, X_2, \cdots , X_r \)은 기하분포이므로 기댓값은 \( \dfrac{1}{p} \)이다. 그러므로 서로 독립이고 동일한 기하분포를 따르는 확률변수를 합한 형태인 음이항분포 \( X = \displaystyle\sum_{i=1}^{r} X_i \)의 기댓값은 \( X = X_1 + X_2 + \cdots + X_r \)이므로
■ 음이항분포의 기댓값은 \( E(X) = E(X_1 + X_2 + \cdots + X_r) = E(X_1) + E(X_2) + \cdots + E(X_r) = \dfrac{r}{p} \). 즉, \( E(X) = \displaystyle\sum_{i=1}^{r} E(X_i) = r \times \dfrac{1}{p} = \dfrac{r}{p} \)
- \( E(X) \)는 음이항분포의 기댓값이고
- \( \displaystyle\sum_{i=1}^{r} E(X_i) \)는 서로 독립이며 동일한 기하분포를 따르는 확률변수의 기댓값의 합이다.
- 기하분포를 따르는 확률변수의 기댓값은 \( \dfrac{1}{p} \)이므로 음이항분포는 기댓값이 \( \dfrac{1}{p} \)인 기하분포를 따르는 \( r \)개 확률변수의 기댓값의 총합이다.
■ 동일한 방법으로 음이항분포의 분산은 \( Var(X) = \displaystyle\sum_{i=1}^{r} Var(X_i)
= \dfrac{r q}{p^2}
= \dfrac{r (1 - p)}{p^2} \)이다.
■ 음이항분포의 파라미터는 \( r \)과 \( p \), 2개이며 음이항분포의 기댓값과 분산이 \( r \)과 \( p \)에 대한 함수 형태임을 볼 수 있다.
■ 예를 들어, 성공 확률이 각각 0.1인 3개의 실험을 성공시킬 때까지 시도환 횟수 \( X \)에 대하여, 10번째 시도 안에 3개의 실험을 성공시킬 확률은
- 먼저, 10번째 시도 안에 3개의 실험을 성공시킬 확률이므로, 최소 3번은 실험해야 한다. 즉 \( x = 3, 4, 5, \cdots \)
- 확률 함수를 정의한다면, \( f(x) = \displaystyle\binom{x-1}{2} (0.1)^3 (0.9)^{x-3}, \quad x = 3, 4, 5, \dots \)
- 그러므로 \( f(10) = P(X = 10) = \binom{10-1}{2} (0.1)^3 (0.9)^{10-3} \approx 0.017 \)
- 2번 성공하고, 나머지 7번은 '실패'한다면, 다음 시도에서는 '성공'해야 하니까 \( \binom{10-1}{2} (0.1)^2 (0.9)^7 (0.1)^1 \)
5. 초기하분포
■ 초기하분포(hypergeometric distribution)는 두 가지 특성(\( r \)개 성공, \( N - r \)개 실패)을 갖는 개체들로 구성된 크기 \( N \)인 유한모집단에서 \( n \)개의 표본을 비복원 추출했을 때, '성공'의 개수 \( X \)에 대한 분포이다.
■ 성공 개수 \( X \)가 초기하분포를 따른다면, \( X \sim HG(n, N, r) \)로 표기한다.
■ 즉, 초기하분포는 '\( n \)'개 비복원 추출, '\( N \)' 유한모집단 크기, 성공 개수 '\( r \)'을 파라미터로 갖는다.
■ 비복원 추출은 한 번 뽑힌 표본은 다시 넣지 않고 모집단에서 표본을 추출하는 방식이다. 즉, 초기하분포는 앞의 시행이 뒤의 시행에 영향을 준다. 그러므로 초기하분포에서는 베르누이 시행을 가정할 수 없다.
■ 두 가지 특성(\( r \)개의 '성공'과 \( N - r \)개의 '실패')으로 구성된 유한모집단(\( N \))에서 \( n \)개의 표본을 비복원 추출했을 때, 성공 개수를 나타내는 확률변수 \( X \)의 확률질량함수는 다음과 같다.
\( f(x) = P(X = x) = \dfrac{\displaystyle\binom{r}{x} \binom{N - r}{n - x}}{\displaystyle\binom{N}{n}}
= \dfrac{rC_x \cdot (N - r)C_{n - x}}{N C_n}, \quad
\max(0, n - N + r) \leq x \leq \min(n, r) \)
- 분모 \( \displaystyle\binom{N}{n} \)은 모집단에서 \( n \)개를 추출한 것이다.
- 분자는 모집단에서 '성공'으로 간주되는 \( r \)개의 항목 중에서 \( x \)개의 성공을 선택한 경우의 수 \( \displaystyle\binom{r}{x} \)와 모집단에서 실패로 간주되는 \( N - r \)개의 항목 중에서 \( n - x \)개의 실패를 선택한 경우의 수 \( \displaystyle\binom{N-r}{n-x} \)의 곱이다.
- 그러므로 초기하분포는 모집단에서 추출한 표본에서 \( x \)개의 성공과 \( n - x \)개의 실패를 얻는 모든 가능한 경우의 수를 나타낸다.
- 즉, 초기화분포의 확률질량함수를 통해 특정한 성공 개수 \( x \)에 대한 확률을 계산할 수 있다.
■ 초기하분포의 기댓값과 분산은 다음과 같다.
\( E(X) = n \times \text{성공 확률} = n \times \dfrac{r}{N} = \dfrac{nr}{N}, \quad
Var(X) = n \cdot \left( \dfrac{r}{N} \right) \left( 1 - \dfrac{r}{N} \right) \left( \dfrac{N - n}{N - 1} \right) \)
- 초기하분포의 기댓값과 분산은 초기하분포의 파라미터 \( n, N, r \)로 구성된 함수이다.
- \( Var(X) \)에서 \( p = \) 성공확률(또는 전체 모집단 중 성공의 개수) \( = \dfrac{r}{N} \)로 정의하면, \( Var(X) = n p (1 - p) \left( \dfrac{N - n}{N - 1} \right) \)
- \( Var(X) = n p (1 - p) \left( \dfrac{N - n}{N - 1} \right) \)식을 이항분포의 분산 \( np(1-p) \)와 비교하면 \( \left( \dfrac{N-n}{N-1} \right) \)배 차이가 난다. 이를 '유한모집단 수정 계수(finite population correction factor)'라고 한다.
- \( Var(X) = n p (1 - p) \left( \dfrac{N - n}{N - 1} \right) \)식에서 \( N \)을 증가시키면, 이항분포 \( B(n, p) \)에 수렴한다. 그 이유는, 이항분포는 무한모집단에서 표본을 추출한 경우이고, 초기하분포는 유한모집단에서 표본을 추출한 경우에 해당하기 때문이다. 그리고 \( p = \) 성공확률(또는 전체 모집단 중 성공의 개수) \( = \dfrac{r}{N} \)로 정의하면, 초기하분포의 기댓값은 이항분포의 기대값처럼 \( E(X) = np \)가 되고, \( N \rightarrow \infty \)이면, 유한모집단 수정 계수는 1이 되므로, 이항분포 \( B(n, p) \)에 수렴한다.
■ 예를 들어, 30개의 제품에서 6개는 불량이고, 5개의 표본을 추출했는데 불량품이 1개 이하로 나올 확률은(불량 개수가 확률변수 \( X \))
- \( N = 30, r = 6, n = 5 \)이므로 \( P(X \leq 1) = P(X = 0) + P(X = 1)
= \dfrac{\displaystyle\binom{6}{0} \cdot \binom{24}{5}}{\displaystyle\binom{30}{5}}
+ \dfrac{\displaystyle\binom{6}{1} \cdot \binom{24}{4}}{\displaystyle\binom{30}{5}} \)
- P(불량품이 1개 이하) = P(불량품이 0개) + P(불량품이 1개)
■ 이렇게 초기하분포는 모집단의 개수가 작을 때, 베르누이 시행을 가정할 수 없는 상황에서 사용한다.
6. 포아송분포
■ 포아송분포(poisson distribution)는 한정된 단위 시간 혹은 공간에서 발생하는 희소한 특정 사건이 몇 번 발생할 것인지를 표현할 때 적합한 이산형 확률분포이다.
■ 어떤 사건이 임의의 구간에서 간헐적으로 발생할 때, 사건의 발생 횟수를 나타내는 확률변수 \( X \)의 분포를 모형화하기 위해서 포아송분포를 사용한다.
■ 주어진 구간을 \( n \)개의 아주 작은 구간들로 분할하고, 한 구간에서 사건이 1회 발생할 확률을 \( p \)로 설정한다. 이때, 한 구간에서 사건이 최대 한 번 발생할 수 있을 정도로 작게 설정한다.(포아송분포의 비집락성 - 매우 짧은 시간이나 매우 작은 공간에 두 개 이상의 결과가 동시에 발생할 확률은 0으로 가정)
■ 각 구간에서 사건의 발생 여부가 베르누이 시행이라고 가정하면, 전체 발생 횟수 \( X \)는 \( X = \displaystyle\sum_{i=1}^{n} X_i \), 이항분포 \( B(n, p) \)를 따르게 된다. 이때, 평균 발생 횟수 \( E(X) = np \)로 계산된다.
■ 이항분포의 확률(분포)함수에서 \( \lambda = np \)라 하고 \( \lambda \)를 고정한 채, \( n \)을 무한대로 증가시키면(= 발생 횟수의 기댓값 \( E(X) = np = \lambda \)라 하고, \( \lambda \)를 고정한 채로 \( n \)을 무한대로 증가시키면) \( x \)번 발생할 확률인 \( P(X = x) \)는
\( \displaystyle\lim_{n \to \infty} P(X = x) = \displaystyle\lim_{n \to \infty} f(x) = \displaystyle\lim_{n \to \infty} \displaystyle\binom{n}{x} p^x (1 - p)^{n - x} = \displaystyle\lim_{n \to \infty} \dfrac{n!}{x! (n - x)!} p^x (1 - p)^{n - x} \) \( = \dfrac{1}{x!} \displaystyle\lim_{n \to \infty} \dfrac{n!}{(n - x)!} \left( \dfrac{\lambda}{n} \right)^x \left( 1 - \dfrac{\lambda}{n} \right)^{n - x} \)
\( = \dfrac{1}{x!} \displaystyle\lim_{n \to \infty}
\dfrac{n (n - 1) (n - 2) \cdots 1}{(n - x)(n - x - 1) \cdots 1}
\lambda^x \left( \dfrac{1}{n} \right)^x
\dfrac{\left( 1 - \dfrac{\lambda}{n} \right)^n}{\left( 1 - \dfrac{\lambda}{n} \right)^x} = = \dfrac{\lambda^x}{x!} \displaystyle\lim_{n \to \infty}
\dfrac{n (n - 1) (n - 2) \cdots (n - x + 1)}{n^x}
\cdot \dfrac{\left( 1 - \dfrac{\lambda}{n} \right)^n}{\left( 1 - \dfrac{\lambda}{n} \right)^x} \)
\( = \dfrac{\lambda^x}{x!} \displaystyle\lim_{n \to \infty}
\left( \dfrac{n}{n} \right) \left( \dfrac{n-1}{n} \right)
\cdots \left( \dfrac{n - x + 1}{n} \right)
\cdot \dfrac{\left( 1 - \dfrac{\lambda}{n} \right)^n}{\left( 1 - \dfrac{\lambda}{n} \right)^x}
= \dfrac{\lambda^x}{x!} \cdot e^{-\lambda} \)
- 시작 \( n \), 끝 \( n - x + 1 \Rightarrow ( n - (n - x + 1) = x \)개
- 여기서 \( \displaystyle\lim_{n \to \infty} \left( \dfrac{n}{n} \right)
\left( \dfrac{n-1}{n} \right) \cdots
\left( \dfrac{n - x + 1}{n} \right) = 1, \displaystyle\lim_{n \to \infty} \left( 1 - \dfrac{\lambda}{n} \right)^n
= \displaystyle\lim_{n \to \infty}
\left\{ \left( 1 - \dfrac{\lambda}{n} \right)^{\dfrac{n}{\lambda} \cdot \lambda} \right\}
= (e^{-1})^\lambda = e^{-\lambda}, \displaystyle\lim_{n \to \infty} \left( 1 - \dfrac{\lambda}{n} \right)^x = 1 - 0 = 1 \)
■ 이렇게 시행 횟수 \( n \)은 점점 증가시키고, 성공 확률 \( p \)는 점점 감소시키되, 기댓값(평균 발생 횟수)인 \( \lambda = np \)를 일정한 값으로 유지시키면, 이항분포를 포아송분포로 근사할 수 있다. (=포아송분포를 이항분포로부터 유도할 수 있다.)
■ 다시 말해, \( n \)이 충분히 크고 \( p \)가 충분히 작으면 이항분포를 포아송분포로 근사할 수 있다. \( P(i; n, p) \approx P(i; \lambda) \). 즉, \( \lambda = np \)가 된다.
■ 정리하면, 평균이 \( \lambda \left( =np \right) \)인 포아송분포를 따르는 확률변수 \( X \)의 확률질량함수는 \( f(x) = \dfrac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \dots \)이며, 이 함수의 출력으로 '임의의 구간에서 특정 사건이 평균 \( \lambda \)번 발생하는 경우, 이 사건이 발생할 횟수의 분포를 얻는다.
- 여기서 \( f(x) \)는 '확률' 함수이다. 즉, 확률 함수로부터 출력된 모든 확률의 총합은 1이 되어야 한다.
- 포아송분포의 확률변수가 가질 수 있는 값은 0부터 무한대이므로 \( \sum_{x=0}^{\infty} P(X = x)
= \sum_{x=0}^{\infty} f(x)
= e^{-\lambda} \sum_{x=0}^{\infty} \dfrac{\lambda^x}{x!}
= e^{-\lambda} \cdot e^{\lambda} = 1 \)
이 된다.
-- 테일러 급수 \( e^x = 1 + x + \dfrac{x^2}{2!} + \dfrac{x^3}{3!} + \dfrac{x^4}{4!} + \dots,
\quad x \in \mathbb{R} \)
■ 그리고 \( X \)가 포아송분포를 따른다면, \( X \sim Poisson(\lambda) \) 또는 \( X \sim Poi(\lambda) \)로 표기한다. 즉, \( \lambda \)가 포아송분포의 파라미터가 된다.
■ 포아송분포의 기댓값과 분산은 모두 \( \lambda \left( =np \right) \)이다.
\( E(X) = \sum_{x=0}^{\infty} x f(x)
= \displaystyle\sum_{x=0}^{\infty} \dfrac{x e^{-\lambda} \lambda^x}{x!} \), 여기서 \( x = 0 \)일 때 0이므로 \( x = 1\)부터 시작할 수 있다.
\( \displaystyle\sum_{x=0}^{\infty} \dfrac{x e^{-\lambda} \lambda^x}{x!}
= \lambda \displaystyle\sum_{x=1}^{\infty} \dfrac{e^{-\lambda} \lambda^{x-1}}{(x-1)!} \), 여기서 \( i - 1 = k \)로 치환하면 \( \lambda \displaystyle\sum_{k=0}^{\infty} \dfrac{e^{-\lambda} \lambda^k}{k!}
= \lambda \cdot e^{-\lambda} \displaystyle\sum_{k=0}^{\infty} \dfrac{\lambda^k}{k!}
= \lambda \cdot e^{-\lambda} \cdot e^{\lambda} = \lambda \)가 된다.
\( E(X^2) \)도 동일한 방법으로 계산할 수 있다.
\( E(X^2) = \displaystyle\sum_{x=1}^{\infty} x^2 f(x)
= \displaystyle\sum_{x=1}^{\infty} x^2 \dfrac{e^{-\lambda} \lambda^x}{x!}
= \displaystyle\sum_{x=1}^{\infty} x (x-1) \dfrac{e^{-\lambda} \lambda^x}{x!}
+ \displaystyle\sum_{x=1}^{\infty} x \dfrac{e^{-\lambda} \lambda^x}{x!} \)
\( = \lambda e^{-\lambda} \displaystyle\sum_{x=1}^{\infty} (x-1) \dfrac{\lambda^{x-1}}{(x-1)!}
+ \lambda e^{-\lambda} \displaystyle\sum_{x=1}^{\infty} \dfrac{\lambda^{x-1} e^{-\lambda}}{(x-1)!} \)
\( = \lambda \displaystyle\sum_{k=0}^{\infty} k \dfrac{\lambda^k e^{-\lambda}}{k!}
+ \lambda e^{-\lambda} \cdot e^{\lambda}
= \lambda^2 + \lambda
= \lambda (\lambda + 1) \)
\( E(X) = \lambda \)이고 \( E(X^2) \)은 \( \lambda(\lambda + 1) \)이므로 분산 \( Var(X) = E(X^2) - E(X)^2
= \lambda^2 + \lambda - \lambda^2
= \lambda \)
■ 예를 들어, 특정 도로에서 하루동안 밠애하는 교통사고 횟수가 평균 1.5회로 관측되었을 때,
- 하루동안 발생하는 교통사고 횟수의 확률분포는 \( X \sim Poisson(1.5) \)이며, 확률질량함수는 \( f(x) = \dfrac{1.5^x e^{-1.5}}{x!}, \quad x = 0,1,2, \cdots \)
- 기댓값과 분산은, 평균 1.5회이므로 \( E(X) = Var(X) = 1.5 \)
- 하루동안 교통사고가 2회 발생할 확률은 \( P(X = 2) = f(2) = \dfrac{\lambda^2 e^{-\lambda}}{2!} = \dfrac{(1.5)^2 e^{-1.5}}{2} = 1.125 \times e^{-1.5} \)
- 하루동안 교통사고가 3회 이상 발생할 확률은 \( P(X = 3) = 1 - P(X < 3) = 1 - f(0) - f(1) - f(2) = 1 - \left( \dfrac{1.5^0 e^{-1.5}}{0!} + \dfrac{1.5^1 e^{-1.5}}{1!} + \dfrac{1.5^2 e^{-1.5}}{2!} \right) \)
- 10일 동안 20회의 교통사고가 발생할 확률은, 하루 평균 1.5회면 10일이면 평균 15회라고 볼 수 있다. 10일 동안 발생하는 사고 횟수를 확률변수 \( Y \)라고 하면, \( Y \sim Poisson(15) \)이다. 이를 이용해서 \( P( Y = 20) \)을 계산하면 된다.
7. 다항분포
■ 다항분포는 이항분포의 확장 개념으로, 이항분포는 '성공'과 '실패' 두 가지 속성(범주)만 갖는 모집단을 대상으로 하지만, 다항분포는 여러 개의(세 가지 이상의) 속성(범주)을 갖는 모집단에서 발생한다.
■ 여러 개의 속성(범주) 중에서 각 속성이 나타날 횟수를 나타내는 확률변수를 다루는 분포이다.
■ \( k \)개의 속성이 존재하고, 각 속성의 비율이 \( P_1, P_2, \cdots, P_k \)인 무한모집단에서 \( n \)개의 표본을 추출한 경우, '각 속성의 개수'를 \( X_1, X_2, \cdots, X_k \)라 할 때, 다음과 같이 다항분포를 따른다. \( X \sim MN(n, P_1, P_2, \cdots, P_k) \)
■ 다수(\( k \))개의 속성을 갖는 개체들로 구성된 무한모집단에서 일정한 개수의 표본을 취했을 때, 각 속성을 갖는 개체수의 결합확률분포는
\( P(X_1 = x_1, X_2 = x_2, \cdots, X_k = x_k) = f(x_1, x_2, \cdots, x_k) = \displaystyle\binom{n}{x_1, x_2, \dots, x_k} p_1^{x_1} p_2^{x_2} \dots p_k^{x_k} = \dfrac{n!}{x_1! x_2! \dots x_k!} p_1^{x_1} p_2^{x_2} \dots p_k^{x_k} \)
여기서 \( p_1 + p_2 + \cdots + p_k = 1, \quad x_1 + x_2 + \cdots + x_k = n, \quad 0 \leq x_i \leq n \)
- \( \dfrac{n!}{x_1! x_2! \cdots x_k!} \)는 \( n \)개의 표본 중 각각의 속성이 \( x_1, x_2, \cdots, x_k \)씩 나오는 경우의 수
- \( P_1^{x_1}, P_2^{x_2}, \cdots, P_k^{x_k} \)는 특정 조합의 확률
■ 다항분포의 중요한 특성 중 하나는 \( X_i \)의 주변분포가 이항분포가 된다는 사실이다.
■ 특정한 \( i \)번째 속성만을 '성공'으로 정하면, 전체 모집단은 '성공'과 '실패' 두 가지 속성만 가지기 때문이다.
■ 그러므로 \( X_i \)의 주변분포는 \(
P(X_i = x_i) = \displaystyle \binom{n}{x_i} p_i^{x_i} (1 - p_i)^{n - x_i}, \quad x_i = 0,1,\dots, n
\)
■ 다항분포는 이항분포를 확장한 개념으로 다항분포의 기댓값과 분산은 이항분포의 기댓값과 분산을 그대로 활용하면 된다. 다항분포를 이루는 각각의 사건은 이항분포이므로 \( E(X_i) = np_i, \quad Var(X_i) = np_i (1 - p_i) \)
'확률' 카테고리의 다른 글
연속형 확률분포 (1) (0) | 2025.02.14 |
---|---|
적률생성함수 (0) | 2025.02.14 |
확률변수의 기댓값과 분산, 공분산, 상관계수 (0) | 2025.02.05 |
확률변수와 확률분포 (0) | 2024.09.03 |
확률 (0) | 2024.08.28 |