본문 바로가기

확률

이산형 확률분포

■ '표본공간(sample sapce)'는 실험으로부터 나온 모든 결과를 담고 있는 집합이다.

■ 실험으로부터 나온 개별 결과들(표본공간의 원소들)을 실수로 변환할 때 필요한 함수가 '확률변수(random variable)'이다. 표본공간의 원소들을 확률변수라는 함수의 입력으로 넣으면 실수(real number)가 출력된다.

■ 확률변수로부터 나온 실수를 '확률'로 바꾸기 위한 함수는 '확률 함수'이다. 즉, 실수를 확률 함수의 입력으로 넣으면 확률이 출력된다. 

■ 확률 함수의 출력으로 나오는 '확률들의 패턴'이 '확률분포'이다.

정리하면,

- (1) 표본공간의 원소인 실험으로부터 나온 모든 결과를 '확률변수'라는 함수에 넣어서 실수로 변환한다.

- (2) 변환된 실수들을 '확률함수'에 넣으면 확률이 출력된다. 이때 나오는 확률들의 패턴을 '확률분포'라고 한다.

- 이때, 확률 함수의 종류는 여러가지가 있다. 그러므로 다양한 패턴들의 확률분포가 존재한다.

■ 확률 함수의 입력이 이산형이면, 확률 함수는 '확률질량함수(probability mass function)', 연속형이면 확률 함수는 '확률밀도함수(probability density function)를 사용한다.

■ 변환된 실수들이 이산형이면, 이 실수들은 확률질량함수의 입력으로 들어가서 확률들로 출력된다. 이때의 확률들은 다음 그림과 같이 이산형 확률분포의 패턴을 가지고

[출처] https://excelsior-cjh.tistory.com/193

변환된 실수들이 연속형이면, 확률밀도함수의 출력으로 나오는 확률들은 다음 그림과 같이 연속형 확률분포의 패턴을 가지게 된다. 

[출처] https://excelsior-cjh.tistory.com/193

 

1. 이산균일분포

■ 이산균일분포(discrete uniform distribution)는 '\( n \)개의 결과 값이 균일한 확률로 발생하는 확률분포'를 말한다. 즉, 이산균일분포의 확률질량함수의 식은 \( f(x) = \dfrac{1}{n}, \quad x = 1, 2, \cdots, n \)이다.

■ 이산균일분포의 기댓값과 분산에 대한 식은 다음과 같다.

\( E(X) = \displaystyle\sum_{x=1}^{n} x \cdot f(x) = \displaystyle\sum_{x=1}^{n} x \cdot \dfrac{1}{n} = (1+2+\cdots+n) \cdot \dfrac{1}{n} = \dfrac{n(n+1)}{2} \cdot \dfrac{1}{n} = \dfrac{n+1}{2} \)
\( Var(X) = E(X^2) - (E(X))^2 = \displaystyle\sum_{x=1}^{n} x^2 \cdot f(x) = (1^2 + 2^2 + \cdots + n^2) \cdot \dfrac{1}{n} - \left( \dfrac{n+1}{2} \right)^2 = \dfrac{n(n+1)(2n+1)}{6} \cdot \dfrac{1}{n} - \left( \dfrac{n+1}{2} \right)^2 = \dfrac{(n+1)(2(2n+1) - 3(n+1))}{12} = \dfrac{(n+1)(n-1)}{12} \) 

■ 예를 들어, 1에서 20까지 번호가 적혀 있는 동일한 20개의 공이 들어 있는 상자에서 임의로 하나의 공을 꺼냈을 때 나온 번호를 \( X \)라고 하면

- 확률변수 \( X \)의 확률(분포)함수는 \( f(x) = \dfrac{1}{20}, \quad x = 1, 2, \cdots, 20 \)

- \( X \)의 기댓값과 분산은 E(X) = 10.5, Var(X) = 33.25

- 15이상의 번호가 나올 확률은 번호가 15부터 20인 공을 꺼냈을 때의 확률이므로 \( P( X \geq 15) = \displaystyle\sum_{x=15}^{20} \dfrac{1}{20} = 0.3 \)

 

2. 이항분포

2.1 베르누이 분포

■ 베르누이 분포(Bernoulli distribution)는 '성공 확률이 일정한 1회의 시행(trial)에서 나오는 성공 횟수의 확률분포'를 말한다.

■ 여기서 시행은 베르누이 시행(Bernoulli trial)을 말한다. 즉, 베르누이 시행에서 성공여부를 나타내는 확률변수는 베루느이 분포를 따른다.

- 베르누이 시행은 동전 던지기, 질병 진단, 찬반 투표, 자유투 던지기 등, 결과가 두 가지로 한정되는 확률 실험(=시행)을 의미한다.

- 베르누이 시행의 조건은 다음과 같다.

-- ① 각 시행의 결과는 성공(\( S \)) 또는 실패(\( F \))

-- ② 성공 확률이 \( P(S) = p \)라면, 실패 확률 \( P(F) = 1 - p \)

-- ③  '각 시행은 독립'. 즉, 이전 시행의 결과가 다음 시행 결과에 영향을 주지 않는다.

■ 베르누이 분포를 따르는 확률변수의 확률질량함수는 성공, 실패에 대한 확률을 반환해야 하므로 다음과 같다.

\( f(x) =
\begin{cases} 
p, & \text{if } x = 1 \\
1 - p, & \text{if } x = 0
\end{cases} \)

이를 축약하여 \( f(x) = p^x (1 - p)^{1-x}, \quad x = 0, 1 \)로 나타낼 수 있다.

■ 예를 들어, 주사위 2개를 던졌을 때, 두 눈의 합이 6일 확률은 \( p = \dfrac{5}{36} \)이므로 \( p^x (1 - p)^{1 - x} = \left( \dfrac{5}{36} \right)^1 \times \left( \dfrac{31}{36} \right)^{1-1} = \dfrac{5}{36} \)이 된다.

- 이 예의 전제는 성공이므로 \( x = 1 \)이다.

■ 베르누이 확률변수 \( X \)의 기댓값과 분산은 다음과 같다.

\( E(X) = \displaystyle\sum_{x=0}^{1} x \cdot f(x) = \displaystyle\sum_{x=0}^{1} x \cdot p^x (1 - p)^{1 - x} = 0 \times (1 - p) + 1 \times p = p \)

\( Var(X) = E(X^2) - \left( E(X) \right)^2 = p - p^2 = p(1 - p) \)

2.2 이항분포

이항분포(binomial distribution)는 성공 확률이 \( p \)인 베르누이 시행을 독립적으로 \( n \)회 시행했을 때, 나오는 총 성공 횟수 \( X \)의 분포이다.

■ 확률변수인 총 성공 횟수 \( X \)가 이항분포를 따르면 \( X \sim B(n. p) \)로 표기한다. 여기서 \( n \)은 시행 횟수, \( p \)는 성공 확률이다. 

cf) 베르누이 분포는 시행 횟수가 1회인 이항분포의 특수 케이스로 \( B(1, p) \)로 표기한다.

■ 성공 확률이 \( p \)인 베르누이 시행을 \( n \)회 시행했을 때, 총 성공 횟수를 나타내는 확률변수 \( X \)의 확률질량함수는 다음과 같다.

\( f(x) = \displaystyle\binom{n}{x} p^x (1 - p)^{n - x} \quad \Leftrightarrow nCx \, p^x (1 - p)^{n - x}, \quad x = 0, 1, 2, \dots, n \)

■ 즉, 성공 확률이 일정한 \( n \)회의 독립 시행에서 나오는 성공 횟수의 분포는 이항분포가 된다.

■ \( X_i \)를 \( i \)번째 베르누이 시행에서의 확률변수, \( n \)회의 독립 시행에서 나오는 성공 횟수를 \( X \)라 하면, \( X = \displaystyle\sum_{i=1}{n} X_i \)가 된다. 따라서 이항분포의 기댓값과 분산은 다음과 같다.

\( E(X) = \displaystyle\sum_{i=1}^{n} E(X_i) = \displaystyle\sum_{i=1}^{n} p = np \)

\( Var(X) = \displaystyle\sum_{i=1}^{n} Var(X_i) = \displaystyle\sum_{i=1}^{n} p(1 - p) = np(1 - p) \)

- \( X = \displaystyle\sum_{i=1}{n} X_i \)가 성립하는 이유는 이항분포의 확률변수 \( X \)는 베르누이 분포를 따르는 \( n \)개의 독립적인 확률변수(\( X_1, X_2, \cdots, X_n \))의 합으로 볼 수 있기 때문이다. 

■ 예를 들어, 성공률이 p인 선수가 자유투를 3번 던져서 2번 성공할 확률은 3가지 경우가 존재한다.

- (1) 앞의 2번은 성공 & 마지막에서 실패, (2) 처음과 마지막은 성공, 두 번째에서 실패, (3) 첫 번째에서 실패 & 나머지는 성공

- 이 3가지 경우를 나열하면,

- (1) \( p \times p \times (1 - p) = (1 - p) p^2 \)

- (2) \( p \times (1 - p) \times p = (1 - p) p^2 \)

- (3) \( (1 - p) \times p \times p = (1 - p) p^2 \)

- 따라서 2번 성공할 확률은 \( P(X = 2) = (1 - p) p^2 + (1 - p) p^2 + (1 - p) p^2 = 3 \cdot (1 - p) p^2 \)이 된다.

- 이 예에서 \( X \)는 베르누이 분포를 따르는 3개의 독립적인 확률변수 \( X_1, X_2, X_3 \)의 합인 것을 확인할 수 있다.

■ 예를 들어, 불량품이 5%인 공정에서 5개의 제품을 테스트했을 때, 적어도 하나의 불량품을 발견할 확률은 

- 확률변수 \( X \)가 불량품 개수라고 하면, \( X \sim B(5, 0.05) \)이며, 적어도 하나의 불량품을 발견할 확률은 \( P(X \geq 1) \)이다.

- \( P(X \geq 1) = 1 - P(X < 1) = 1 - P(X = 0) \)이며 \( P(X = 0) \)은 불량품을 하나도 뽑지 못할 확률이다.

- 불량품을 뽑는 것이 성공이라면 \( p = 0.05 \)이므로 불량품을 뽑지 못하는 것은 \( 1 - p = 0.95 \)이다.

- 그러므로 \( P(X \geq 1) = 1 - (0.95)^5 \approx 0.22 \)가 된다.

■ 확률변수가 이항분포를 따르면 \( X \sim B(n, p) \)로 나타내며 \( n \)은 시행 횟수, \( p \)는 성공 확률이라고 하였다. 이때 \( n \)과 \( p \)를 모수(parameter)라고 한다.

■ 이런 파라미터에 의해 확률분포의 모양(확률 함수로부터 나온 확률들의 패턴)이 결정된다.

■ 그리고 각 분포의 기댓값과 분산은, 각 확률 함수의 파라미터의 함수 형태로 표현된다. 

- 이항분포의 파라미터는 \( n \)과 \( p \), 2개이다. 위에서 이항분포의 기댓값과 분산을 보면 \( n, p \)로 이뤄진 형태임을 볼 수 있다.

■ \( X \)가 이항확률변수(binomial random variable)일 때, 파라미터가 \( n \)과 \( p \)이다. 여기서 \( p \)는 성공 '확률'이므로 0~1 사이의 값을 갖는다. 그리고 \( n \)은 시행 횟수이므로 \( n \geq 0 \)

 \( X \)가 이항확률변수일 때, \( P(X = k) \)라면 \( k = 0, 1, 2, \cdots, n \)이다. 이때 \( P(X = k) \)라는 확률은 다음과 같이 증가 \( \rightarrow \) 감소의 패턴을 가진다.

p = 0.3일 때, n = 10, 20, 30 이항분포 그래프 [출처] https://blog.naver.com/kiakass/222050291120

■ 위의 그래프에서  증가 \( \rightarrow \) 감소하는 꼭대기(극대) 지점이 \( (n + 1)p \)이다. 

■ 확률이 최대가 되는 꼭대기 지점을 찾으려면 \( P(X = k) \geq P(X = k - 1) \) 조건을 만족하는 \( k \)를 찾으면 된다.

- \( k \)값이 증가한다고 생각하면, \( P(X = k-1) \leq P(X = k) \)는 확률이 증가하는 지점, \( P(X = k-1) \geq P(X = k) \)는 확률이 감소하기 시작하는 지점을 나타낸다고 볼 수 있다.

■ \( P(X=k) \geq P(X = k - 1) \Leftrightarrow \dfrac{P(X=k)}{P(X=k-1)} \geq 1 \)이다.

- 위의 식에서 \(
\dfrac{P(X = k)}{P(X = k - 1)}
\)을 이항분포의 확률질량함수를 이용하여 전개하면

- \( \dfrac{P(X = k)}{P(X = k - 1)}
= \dfrac{\dfrac{n!}{(n-k)! k!} p^k (1 - p)^{n - k}}{\dfrac{n!}{(n-k+1)! (k-1)!} p^{k-1} (1 - p)^{n - k + 1}}
= \dfrac{(n - k + 1) p}{k (1 - p)} \geq 1 \Rightarrow (n - k + 1)p \geq k(1 - p) \)

- 찾아야 하는 것은 \( k \)이다. \( (n - k + 1)p \geq k(1-p) \Rightarrow np - kp + p \geq k - kp \Rightarrow k \leq (n+1)p \)가 된다. 즉, \( (n+1)p \)일 때, 다음과 같이 \( k \)에서 확률값의 최고점을 찍는다.

■ 예를 들어 이항분포가 \( \displaystyle\binom{5}{x} (0.7)^x (0.3)^{5-x} \)라면, \( n = 5, p = 0.7 \)이므로 \( k \leq (n + 1) \cdot p \Rightarrow k \leq 6 \cdot \dfrac{7}{10} \Rightarrow k \leq 4.2 \)

- 4.2보다 작은 큰 정수는 4이다. 따라서 \( k = 4 \)이며, 다음 그림과 같이 \( k = 4 \) 전까지는 확률이 증가하는 패턴을, \( k = 4 \) 이후에는 확률이 떨어지는 패턴을 보인다.

[출처 ]https://hsm-edu.tistory.com/1678

 

3. 기하분포

■ 기하분포(geometric distribution)는 성공 확률이 \( p \)인 베르누이 시행을 1회 성공할 때까지(첫 번째 성공이 발생할 때까지) 독립 시행할 때, 총 시행 횟수 \( X \)의 분포이다.

■ 확률변수인 총 시행 횟수 \( X \)가 기하분포를 따르면, \( X \sim G(p) \)로 표기한다.

■ \( x \)번째 시행에서 첫 번째 성공이 발생하려면, 그 이전의 \( x - 1 \)번의 시행에서 연속으로 '실패'가 나와야 한다.

- 첫 번째에 성공하면 \( P(X = 1) = p \)

- 두 번째에 성공하면 \( P(X = 2) = (1 - p) \cdot p \)

- 세 번째에 성공하면 \( P(X = 3) = (1 - p)(1 - p) \cdot p = (1 - p)^2 \cdot p \)

- 네 번째에 성공하면 \( P(X < 4) = (1 - p)(1 - p)(1 - p) \cdot p = (1 - p)^3 \cdot p \)가 된다.

- 따라서 \( k \)번째에 성공하면 \( P(X = k) = (1 - p)^{k - 1} \cdot p \)가 된다.

■ 그러므로 성공 확률이 \( p \)로 일정한 베르누이 시행에서 첫 번째 성공이 발생할 때까지 시행한 횟수를 나타내는 확률변수 \( X \)의 확률질량함수는 다음과 같다.

\( f(x) = P(X = x) = (1 - p)^{x-1} \cdot p, \quad x = 1, 2, \cdots \)

■ 예를 들어, 주사위 1개로 눈금 6이 나올 때까지 반복한다면, \( p = \dfrac{1}{6} \)이므로 \( X \sim G(\dfrac{1}{6}) \)이 된다. 이때의 확률(분포)함수는 \( f(x) = \left( \dfrac{5}{6} \right)^{x-1} \cdot \dfrac{1}{6}, \quad x = 1, 2, 3, \cdots \)이 되며

- 만약, 3회 시행 이내에 눈금 6이 나왔다면, 그 확률은 \( 1 - \left( \dfrac{5}{6} \right)^3 \)이 된다.

cf) 기하확률변수 \( X \)의 누적분포함수는 '실패 확률'을 \( q = 1 - p \)라고 했을 때, \( F(x) = \displaystyle\sum_{y=1}^{x} (1 - p)^{y - 1} \cdot p 
= \dfrac{p \left[ 1 - (1 - p)^x \right]}{1 - (1 - p)}
= 1 - q^x, \quad x = 1, 2, \dots \)

■ 기하분포의 기댓값은 다음과 같다.

(1) \( E(X) = \displaystyle\sum_{x=1}^{\infty} x \cdot f(x) 
= \displaystyle\sum_{x=1}^{\infty} x \cdot (1 - p)^{x - 1} \cdot p
= p + 2(1 - p) p + 3(1 - p)^2 p + \dots \)

(2) \( (1 - p) \cdot E(X) = (1 - p) \cdot p + 2(1 - p)^2 p + 3(1 - p)^3 p + \dots \), \( 1- p \)는 실패 확률

(1) - (2): \( E(X) - (1 - p) \cdot E(X) = p \cdot E(X) = p + (1 - p) p + (1 - p)^2 p + (1 - p)^3 p + \cdots = \dfrac{p}{1 - (1 - p)} = 1 \)

\( P \cdot E(X) = 1 \)이므로 \( E(X) = \dfrac{1}{p} \)

- \( P \cdot E(X) \)에 대한 식은 무한 등비급수. 초항을 \( p \), 공비를 \( r \), \( \dfrac{\text{초항}}{1-r} = \dfrac{p}{1 - (1 - p)} \)

■ 기하분포의 분산은 다음과 같다.

- \( E(X^2) = \displaystyle\sum_{x=1}^{\infty} x^2 (1 - p)^{x - 1} \cdot p \)

- \( \displaystyle\sum_{n=1}^{\infty} r^n = \dfrac{1}{1 - r}, \quad (-1 < r < 1) \)에서 \( r \)에 대해 미분하면, \( \displaystyle\sum_{n=1}^{\infty} n \cdot r^{n-1} = \dfrac{1}{(1 - r)^2} \)이 되고, 다시 \( r \)에 대해 미분하면 \( \displaystyle\sum_{n=1}^{\infty} n (n - 1) r^{n-2} = \dfrac{2}{(1 - r)^3} \)이 된다. 양변에 \( r \)을 곱하면 \( \displaystyle\sum_{n=1}^{\infty} n (n-1) r^{n-1} = \dfrac{2r}{(1 - r)^3} \)

- \( \begin{aligned} E(X^2) &= \sum_{x=1}^{\infty} x^2 p (1 - p)^{x-1} = p \sum_{x=1}^{\infty} x^2 q^{x-1} \quad (q = 1 - p) \\ &= p \sum_{x=1}^{\infty} x (x - 1) q^{x-1} + p \sum_{x=1}^{\infty} x \cdot q^{x-1} \\ &= \dfrac{p \cdot 2q}{(1 - q)^3} + \dfrac{p}{(1 - q)^2} = \dfrac{2(1 - p)}{p^2} + \dfrac{1}{p} = \dfrac{2 - p}{p^2} \end{aligned} \)

- \( Var(X) = E(X^2) - \left( E(X) \right)^2 
= \dfrac{2 - p}{p^2} - \dfrac{1}{p^2} 
= \dfrac{1 - p}{p^2} \)

- 기하분포의 파라미터는 \( p \), 1개이다. 그러므로 위와 같이 기하분포의 기댓값과 분산은 파라미터 \( p \)의 함수 형태로 표현되는 것을 볼 수 있다.

3.1 기하분포의 비기억 특성(memoryless property)

■ 기하분포는 이산확률분포 중에서 유일하게 비기억 특성(=무기억성)을 갖는다.

■ 비기억성이란, 과거에 밠애한 일에 의해 앞으로 발생할 일이 영향을 받지 않는 성질을 말한다.

■ 비기억성은 예를 들어, 주사위 '3'이 나올 때까지 주사위를 계속 굴리는데, 10,000번 동안 눈금'3'이 나오지 않았더라도 다음 시행인 10,001번째 시도에서 눈금'3'이 나올 확률은 변함이 없다.

■ 이러한 비기억 특성을 수식으로 나타내면 다음과 같다.

\( P(X = n + k \mid X > n) = P(X = k) \)

또는

\( P(X > n + k \mid X > n) = P(X > k) \)

- 여기서 \( n, k = 1, 2, 3, \cdots \)이며, \( n \)은 이미 시행한 횟수, \( k \)는 추가로 시행할 횟수

■ 즉, 조건부 확률 \( P(X = n + k \mid X > n) = P(X = k) \)와 \( P(X > n + k \mid X > n) = P(X > k) \)가 의미하는 것은 \( n \)번의 시행 후에 추가로 \( k \)번 더 시행했을 때의 확률은, 처음에 \( k \)번 시행했을 때의 확률과 동일하다는 것이다.

■ 다시 말해, 이전의 시행 결과는 다음 시행의 확률에 전혀 영향을 주지 않는다.

\( P(X = n + k \mid X > n) 
= \dfrac{P(X = n + k \cap X > n)}{P(X > n)}
= \dfrac{P(X = n + k)}{1 - P(X \leq n)}
= \dfrac{p (1 - p)^{n + k - 1}}{(1 - p)^n}
= p (1 - p)^{k - 1} = P(X = k) \)

- \( P(X = n + k \cap X > n) = P(X = n + k) \)가 성립하는 이유는 \( A \)를 \( X = n + k \), \( B \)를 \( 

X > n \)이라고 했을 때, \( A \)는 \( B \)에 비해 최소 \( k \)번이 더해진 것이기 때문이다. 즉, \( A \)가 \( B \)를 포함하기 때문이다.

- 그러므로 부등호가 \( > \)로 바뀌어도 \( P(X > n + k \mid X > n) = P( X > k \)가 성립하는 것이다.

 

4. 음이항분포

■ 음이항분포(negative binomial distribution)는 기하분포의 개념을 일반화한 것으로, 성공 확률이 \( p \)인 베르누이 시행을 \( r \)번째에서 성공이 발생할 때까지 시행할 때 독립 시행 횟수 \( X \)의 분포이다.

■ 확룰변수 \( X \)가 음이항분포를 따른다면, \( X \sim NB(p, r) \)로 표기한다. 즉, 음이항 분포는 '\( r \)'번째 성공할 횟수, 성공 확률 '\( p \)'라는 2개의 모수(parameter)를 갖는다.

cf) 기하분포는 음이항분포의 특수한 케이스로 \( r = 1 \)인 경우이다. 그러므로 확률변수 \( X \)가 기하분포를 따른다면, \( X \sim G(p) \Leftrightarrow X \sim NB(1, p) \)로 표현할 수 있다.

■ 그 이유는, 음이항분포에서 \( P(X = x) \)는 정확히 \( x \)번째 시행에서 \( r \)번째 성공이 발생할 확률은, 그 이전의 \( x - 1 \)번의 시행에서 \( r - 1 \)번의 '성공'이 나와야 하고 마지막 시행(\( x \)번째 시행)에서 '성공'이 나와야 \( x \)번째 시행에서 \( r \)번째 '성공'이 발생한 것이기 때문이다. 

■ 예를 들어 \( S \)를 '성공', \( F \)를 '실패'라고 한다면 다음과 같은 상황이다.

이를 수식으로 표현하면, 성공 확률이 \( p \)로 일정한 베르누이 시행에서 주어진 횟수(\( r \))의 성공이 발생할 때까지, 총 시행 횟수를 확률변수 \( X \)의 확률질량함수는

\( f(x) = P(X = x) = \displaystyle\binom{x-1}{r-1} p^r \cdot (1-p)^{x-r}, \quad x = r, r+1, \cdots \)

- \( r \)번째에서 '성공'을 보기 위해서 \( x \)번의 시행이 필요한 확률을 의미한다.

- 식의 의미는 \( x \)번째 전에( \( x - 1 \)번째 까지) \( r - 1 \)번 성공을 해야 하고, \( x-1 C r-1 \), 이때 \( r - 1 \)번 성공하고 \( x - r \)번은 실패한 상황의 확률은 \( x-1 C r-1 p^{r-1} (1-p)^{x-r} \)

- 그리고 그 다음 시도에서( \( x \)번째에서) 1번 성공해야 하므로 \( x-1 C r-1 p^{r-1} (1-p)^{x-r} p = x-1 C r-1 p^r (1-p)^{x-r} \)

- 그러므로 \( P(X = x) = x-1 C r-1 p^r (1-p)^{x-r} \)의 의미는 \( r \)번 성공할 때까지 필요한 시행 횟수가 \( x \)번일 확률이다. 

- 따라서 \( x \)가 가질 수 있는 값은 '\( r \)번째 성공할 때까지'이므로 최소 \( r \)부터이다. (최소 \( r \)번은 시행해야 한다.)

■ \( i \)번째 성공까지의 시행 횟수를 \( W_i \)라고 할 때, 각각의 성공 후 다음 성공까지의 시행 횟수를 나타내는 확률변수를 \( W_1, W_2 - W_1, W_3 - W_2, \cdots, W_r - W_{r-1} \)이라고 하자.

- \( W_1 \)은 처음 성공, \( W_2 - W_1 \)은 2번째 성공, \( \cdots \) 

■ 확률변수 \( W_1, W_2 - W_1, W_3 - W_2, \cdots \)의 결합확률질량함수는 다음과 같다.

\( f_{W_1, W_2 - W_1, \dots, W_r - W_{r-1}} (x_1, \dots, x_r) 
= P(W_1 = x_1, W_2 - W_1 = x_2, W_3 - W_2 = x_3, \dots, W_r - W_{r-1} = x_r) \)

\( = P \Big( \text{연속된 } (x_i - 1) \text{회의 실패 후 성공}, \; i = 1, \dots, r \Big) = \Big( (1 - p)^{x_1 - 1} p \Big) \Big( (1 - p)^{x_2 - 1} p \Big) \cdots \Big( (1 - p)^{x_r - 1} p \Big) \)

\( = P(W_1 = x_1) \cdot P(W_2 - W_1 = x_2) \cdots P(W_r - W_{r-1} = x_r) \) # 주변확률질량함수

\( = f_{W_1}(x_1) \cdot f_{W_2 - W_1}(x_2) \cdots f_{W_r - W_{r-1}}(x_r) \)

- \( W_1, W_2 - W_1, \cdots, W_r - W_{r-1} \)은 서로 독립이고 동일한 기하분포 \( G(p) \)를 따른다.

궁극적으로 구하고 싶은 \( r \)번째에 성공이 일어난 시행 횟수'는 \( r \)개의 독립된 기하분포 \( G(p) \)를 따르는 \( W_1, W_2 - W_1, \cdots, W_r - W_{r-1} \) 확률변수의 합으로 다음과 같이 표현할 수 있다. 

\( W_r = W_1 + (W_2 - W_1) + \cdots + (W_r - W_{r-1}) \)

\( W_r \)을 음이항분포의 확률변수 \( X \)라고 한다면,

\( X \sim NB(r, p) \Leftrightarrow X = \displaystyle\sum_{i=1}^{r} X_i \)

■ 즉, 음이항분포(\( NB(r, p) \))는 기하분포 \( r \)개의 합이다. '기하분포 \( r \)개의 합'을 음이항분포라고 부르며, 이는 \( r \)번 성공할 때까지의 시행 횟수를 나타내는 분포이다.

■ 정리하면, \( X_1, X_2, \cdots , X_r \)가 독립이고 동일한 기하분포를 따르는 확률변수라면, \( X = \displaystyle\sum_{i=1}^{r} X_i \)의 분포는 음이항분포를 따른다.

■ \( X_1, X_2, \cdots , X_r \)은 기하분포이므로 기댓값은 \( \dfrac{1}{p} \)이다. 그러므로 서로 독립이고 동일한 기하분포를 따르는 확률변수를 합한 형태인 음이항분포 \( X = \displaystyle\sum_{i=1}^{r} X_i \)의 기댓값은 \( X = X_1 + X_2 + \cdots + X_r \)이므로

■ 음이항분포의 기댓값은 \( E(X) = E(X_1 + X_2 + \cdots + X_r) = E(X_1) + E(X_2) + \cdots + E(X_r)  = \dfrac{r}{p} \). 즉, \( E(X) = \displaystyle\sum_{i=1}^{r} E(X_i) = r \times \dfrac{1}{p} = \dfrac{r}{p} \)

- \( E(X) \)는 음이항분포의 기댓값이고

- \( \displaystyle\sum_{i=1}^{r} E(X_i) \)는 서로 독립이며 동일한 기하분포를 따르는 확률변수의 기댓값의 합이다. 

- 기하분포를 따르는 확률변수의 기댓값은 \( \dfrac{1}{p} \)이므로 음이항분포는 기댓값이 \( \dfrac{1}{p} \)인 기하분포를 따르는 \( r \)개 확률변수의 기댓값의 총합이다.

■ 동일한 방법으로 음이항분포의 분산은 \( Var(X) = \displaystyle\sum_{i=1}^{r} Var(X_i) 
= \dfrac{r q}{p^2} 
= \dfrac{r (1 - p)}{p^2} \)이다.

■ 음이항분포의 파라미터는 \( r \)과 \( p \), 2개이며 음이항분포의 기댓값과 분산이 \( r \)과 \( p \)에 대한 함수 형태임을 볼 수 있다.

■ 예를 들어, 성공 확률이 각각 0.1인 3개의 실험을 성공시킬 때까지 시도환 횟수 \( X \)에 대하여, 10번째 시도 안에 3개의 실험을 성공시킬 확률은

- 먼저, 10번째 시도 안에 3개의 실험을 성공시킬 확률이므로, 최소 3번은 실험해야 한다. 즉 \( x = 3, 4, 5, \cdots \)

- 확률 함수를 정의한다면, \( f(x) = \displaystyle\binom{x-1}{2} (0.1)^3 (0.9)^{x-3}, \quad x = 3, 4, 5, \dots \)

- 그러므로 \( f(10) = P(X = 10) = \binom{10-1}{2} (0.1)^3 (0.9)^{10-3} \approx 0.017 \)

- 2번 성공하고, 나머지 7번은 '실패'한다면, 다음 시도에서는 '성공'해야 하니까 \( \binom{10-1}{2} (0.1)^2 (0.9)^7 (0.1)^1 \)

 

5. 초기하분포

■ 초기하분포(hypergeometric distribution)는 두 가지 특성(\( r \)개 성공, \( N - r \)개 실패)을 갖는 개체들로 구성된 크기 \( N \)인 유한모집단에서 \( n \)개의 표본을 비복원 추출했을 때, '성공'의 개수 \( X \)에 대한 분포이다.

■ 성공 개수 \( X \)가 초기하분포를 따른다면, \( X \sim HG(n, N, r) \)로 표기한다.

■ 즉, 초기하분포는 '\( n \)'개 비복원 추출, '\( N \)' 유한모집단 크기, 성공 개수 '\( r \)'을 파라미터로 갖는다.

■ 비복원 추출은 한 번 뽑힌 표본은 다시 넣지 않고 모집단에서 표본을 추출하는 방식이다. 즉, 초기하분포는 앞의 시행이 뒤의 시행에 영향을 준다. 그러므로 초기하분포에서는 베르누이 시행을 가정할 수 없다.

■ 두 가지 특성(\( r \)개의 '성공'과 \( N - r \)개의 '실패')으로 구성된 유한모집단(\( N \))에서 \( n \)개의 표본을 비복원 추출했을 때, 성공 개수를 나타내는 확률변수 \( X \)의 확률질량함수는 다음과 같다.

\( f(x) = P(X = x) = \dfrac{\displaystyle\binom{r}{x} \binom{N - r}{n - x}}{\displaystyle\binom{N}{n}}
= \dfrac{rC_x \cdot (N - r)C_{n - x}}{N C_n}, \quad
\max(0, n - N + r) \leq x \leq \min(n, r) \)

- 분모 \( \displaystyle\binom{N}{n} \)은 모집단에서 \( n \)개를 추출한 것이다.

- 분자는 모집단에서 '성공'으로 간주되는 \( r \)개의 항목 중에서 \( x \)개의 성공을 선택한 경우의 수 \( \displaystyle\binom{r}{x} \)와 모집단에서 실패로 간주되는 \( N - r \)개의 항목 중에서 \( n - x \)개의 실패를 선택한 경우의 수 \( \displaystyle\binom{N-r}{n-x} \)의 곱이다.

- 그러므로 초기하분포는 모집단에서 추출한 표본에서 \( x \)개의 성공과 \( n - x \)개의 실패를 얻는 모든 가능한 경우의 수를 나타낸다. 

- 즉, 초기화분포의 확률질량함수를 통해 특정한 성공 개수 \( x \)에 대한 확률을 계산할 수 있다.

■ 초기하분포의 기댓값과 분산은 다음과 같다.

\( E(X) = n \times \text{성공 확률} = n \times \dfrac{r}{N} = \dfrac{nr}{N}, \quad
Var(X) = n \cdot \left( \dfrac{r}{N} \right) \left( 1 - \dfrac{r}{N} \right) \left( \dfrac{N - n}{N - 1} \right) \)

- 초기하분포의 기댓값과 분산은 초기하분포의 파라미터 \( n, N, r \)로 구성된 함수이다.

- \( Var(X) \)에서 \( p = \) 성공확률(또는 전체 모집단 중 성공의 개수) \( = \dfrac{r}{N} \)로 정의하면, \( Var(X) = n p (1 - p) \left( \dfrac{N - n}{N - 1} \right) \)

- \( Var(X) = n p (1 - p) \left( \dfrac{N - n}{N - 1} \right) \)식을 이항분포의 분산 \( np(1-p) \)와 비교하면 \( \left( \dfrac{N-n}{N-1} \right) \)배 차이가 난다. 이를 '유한모집단 수정 계수(finite population correction factor)'라고 한다.

- \( Var(X) = n p (1 - p) \left( \dfrac{N - n}{N - 1} \right) \)식에서 \( N \)을 증가시키면, 이항분포 \( B(n, p) \)에 수렴한다. 그 이유는, 이항분포는 무한모집단에서 표본을 추출한 경우이고, 초기하분포는 유한모집단에서 표본을 추출한 경우에 해당하기 때문이다. 그리고 \( p = \) 성공확률(또는 전체 모집단 중 성공의 개수) \( = \dfrac{r}{N} \)로 정의하면, 초기하분포의 기댓값은 이항분포의 기대값처럼 \( E(X) = np \)가 되고, \( N \rightarrow \infty \)이면, 유한모집단 수정 계수는 1이 되므로, 이항분포 \( B(n, p) \)에 수렴한다.

■ 예를 들어, 30개의 제품에서 6개는 불량이고, 5개의 표본을 추출했는데 불량품이 1개 이하로 나올 확률은(불량 개수가 확률변수 \( X \)) 

- \( N = 30, r = 6, n = 5 \)이므로 \( P(X \leq 1) = P(X = 0) + P(X = 1) 
= \dfrac{\displaystyle\binom{6}{0} \cdot \binom{24}{5}}{\displaystyle\binom{30}{5}} 
+ \dfrac{\displaystyle\binom{6}{1} \cdot \binom{24}{4}}{\displaystyle\binom{30}{5}} \)

- P(불량품이 1개 이하) = P(불량품이 0개) + P(불량품이 1개)

■ 이렇게 초기하분포는 모집단의 개수가 작을 때, 베르누이 시행을 가정할 수 없는 상황에서 사용한다.

 

6. 포아송분포

■ 포아송분포(poisson distribution)는 한정된 단위 시간 혹은 공간에서 발생하는 희소한 특정 사건이 몇 번 발생할 것인지를 표현할 때 적합한 이산형 확률분포이다.

어떤 사건이 임의의 구간에서 간헐적으로 발생할 때, 사건의 발생 횟수를 나타내는 확률변수 \( X \)의 분포를 모형화하기 위해서 포아송분포를 사용한다.

■ 주어진 구간을 \( n \)개의 아주 작은 구간들로 분할하고, 한 구간에서 사건이 1회 발생할 확률을 \( p \)로 설정한다. 이때, 한 구간에서 사건이 최대 한 번 발생할 수 있을 정도로 작게 설정한다.(포아송분포의 비집락성 - 매우 짧은 시간이나 매우 작은 공간에 두 개 이상의 결과가 동시에 발생할 확률은 0으로 가정)

■ 각 구간에서 사건의 발생 여부가 베르누이 시행이라고 가정하면, 전체 발생 횟수 \( X \)는 \( X = \displaystyle\sum_{i=1}^{n} X_i \), 이항분포 \( B(n, p) \)를 따르게 된다. 이때, 평균 발생 횟수 \( E(X) = np \)로 계산된다.

■ 이항분포의 확률(분포)함수에서 \( \lambda = np \)라 하고 \( \lambda \)를 고정한 채, \( n \)을 무한대로 증가시키면(= 발생 횟수의 기댓값 \( E(X) = np = \lambda \)라 하고, \( \lambda \)를 고정한 채로 \( n \)을 무한대로 증가시키면) \( x \)번 발생할 확률인 \( P(X = x) \)는 

\( \displaystyle\lim_{n \to \infty} P(X = x) = \displaystyle\lim_{n \to \infty} f(x) = \displaystyle\lim_{n \to \infty} \displaystyle\binom{n}{x} p^x (1 - p)^{n - x} = \displaystyle\lim_{n \to \infty} \dfrac{n!}{x! (n - x)!} p^x (1 - p)^{n - x} \) \( = \dfrac{1}{x!} \displaystyle\lim_{n \to \infty} \dfrac{n!}{(n - x)!} \left( \dfrac{\lambda}{n} \right)^x \left( 1 - \dfrac{\lambda}{n} \right)^{n - x} \)

\( = \dfrac{1}{x!} \displaystyle\lim_{n \to \infty} 
\dfrac{n (n - 1) (n - 2) \cdots 1}{(n - x)(n - x - 1) \cdots 1} 
\lambda^x \left( \dfrac{1}{n} \right)^x 
\dfrac{\left( 1 - \dfrac{\lambda}{n} \right)^n}{\left( 1 - \dfrac{\lambda}{n} \right)^x} = = \dfrac{\lambda^x}{x!} \displaystyle\lim_{n \to \infty} 
\dfrac{n (n - 1) (n - 2) \cdots (n - x + 1)}{n^x} 
\cdot \dfrac{\left( 1 - \dfrac{\lambda}{n} \right)^n}{\left( 1 - \dfrac{\lambda}{n} \right)^x} \)

\( = \dfrac{\lambda^x}{x!} \displaystyle\lim_{n \to \infty} 
\left( \dfrac{n}{n} \right) \left( \dfrac{n-1}{n} \right) 
\cdots \left( \dfrac{n - x + 1}{n} \right) 
\cdot \dfrac{\left( 1 - \dfrac{\lambda}{n} \right)^n}{\left( 1 - \dfrac{\lambda}{n} \right)^x}
= \dfrac{\lambda^x}{x!} \cdot e^{-\lambda} \)

- 시작 \( n \), 끝 \( n - x + 1 \Rightarrow ( n - (n - x + 1) = x \)개

- 여기서 \( \displaystyle\lim_{n \to \infty} \left( \dfrac{n}{n} \right) 
\left( \dfrac{n-1}{n} \right) \cdots 
\left( \dfrac{n - x + 1}{n} \right) = 1, \displaystyle\lim_{n \to \infty} \left( 1 - \dfrac{\lambda}{n} \right)^n 
= \displaystyle\lim_{n \to \infty} 
\left\{ \left( 1 - \dfrac{\lambda}{n} \right)^{\dfrac{n}{\lambda} \cdot \lambda} \right\} 
= (e^{-1})^\lambda = e^{-\lambda}, \displaystyle\lim_{n \to \infty} \left( 1 - \dfrac{\lambda}{n} \right)^x = 1 - 0 = 1 \)
■ 이렇게 시행 횟수 \( n \)은 점점 증가시키고, 성공 확률 \( p \)는 점점 감소시키되, 기댓값(평균 발생 횟수)인 \( \lambda = np \)를 일정한 값으로 유지시키면, 이항분포를 포아송분포로 근사할 수 있다. (=포아송분포를 이항분포로부터 유도할 수 있다.)

■ 다시 말해, \( n \)이 충분히 크고 \( p \)가 충분히 작으면 이항분포를 포아송분포로 근사할 수 있다. \( P(i; n, p) \approx P(i; \lambda) \). 즉, \( \lambda = np \)가 된다.

■ 정리하면, 평균이 \( \lambda \left( =np \right) \)인 포아송분포를 따르는 확률변수 \( X \)의 확률질량함수는 \( f(x) = \dfrac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0, 1, 2, \dots \)이며, 이 함수의 출력으로 '임의의 구간에서 특정 사건이 평균 \( \lambda \)번 발생하는 경우, 이 사건이 발생할 횟수의 분포를 얻는다. 

- 여기서 \( f(x) \)는 '확률' 함수이다. 즉, 확률 함수로부터 출력된 모든 확률의 총합은 1이 되어야 한다.

- 포아송분포의 확률변수가 가질 수 있는 값은 0부터 무한대이므로 \( \sum_{x=0}^{\infty} P(X = x) 
= \sum_{x=0}^{\infty} f(x) 
= e^{-\lambda} \sum_{x=0}^{\infty} \dfrac{\lambda^x}{x!} 
= e^{-\lambda} \cdot e^{\lambda} = 1 \)
이 된다. 

-- 테일러 급수 \( e^x = 1 + x + \dfrac{x^2}{2!} + \dfrac{x^3}{3!} + \dfrac{x^4}{4!} + \dots, 
\quad x \in \mathbb{R} \)

■ 그리고 \( X \)가 포아송분포를 따른다면, \( X \sim Poisson(\lambda) \) 또는 \( X \sim Poi(\lambda) \)로 표기한다. 즉, \( \lambda \)가 포아송분포의 파라미터가 된다.

포아송분포의 기댓값과 분산은 모두 \( \lambda \left( =np \right) \)이다. 

\( E(X) = \sum_{x=0}^{\infty} x f(x) 
= \displaystyle\sum_{x=0}^{\infty} \dfrac{x e^{-\lambda} \lambda^x}{x!} \), 여기서 \( x = 0 \)일 때 0이므로 \( x = 1\)부터 시작할 수 있다.

\( \displaystyle\sum_{x=0}^{\infty} \dfrac{x e^{-\lambda} \lambda^x}{x!} 
= \lambda \displaystyle\sum_{x=1}^{\infty} \dfrac{e^{-\lambda} \lambda^{x-1}}{(x-1)!} \), 여기서 \( i - 1 = k \)로 치환하면
\( \lambda \displaystyle\sum_{k=0}^{\infty} \dfrac{e^{-\lambda} \lambda^k}{k!} 
= \lambda \cdot e^{-\lambda} \displaystyle\sum_{k=0}^{\infty} \dfrac{\lambda^k}{k!} 
= \lambda \cdot e^{-\lambda} \cdot e^{\lambda} = \lambda \)가 된다.

\( E(X^2) \)도 동일한 방법으로 계산할 수 있다.

\( E(X^2) = \displaystyle\sum_{x=1}^{\infty} x^2 f(x) 
= \displaystyle\sum_{x=1}^{\infty} x^2 \dfrac{e^{-\lambda} \lambda^x}{x!}
= \displaystyle\sum_{x=1}^{\infty} x (x-1) \dfrac{e^{-\lambda} \lambda^x}{x!}
+ \displaystyle\sum_{x=1}^{\infty} x \dfrac{e^{-\lambda} \lambda^x}{x!} \)

\( = \lambda e^{-\lambda} \displaystyle\sum_{x=1}^{\infty} (x-1) \dfrac{\lambda^{x-1}}{(x-1)!}
+ \lambda e^{-\lambda} \displaystyle\sum_{x=1}^{\infty} \dfrac{\lambda^{x-1} e^{-\lambda}}{(x-1)!} \)

\( = \lambda \displaystyle\sum_{k=0}^{\infty} k \dfrac{\lambda^k e^{-\lambda}}{k!}
+ \lambda e^{-\lambda} \cdot e^{\lambda}
= \lambda^2 + \lambda
= \lambda (\lambda + 1) \)

\( E(X) = \lambda \)이고 \( E(X^2) \)은 \( \lambda(\lambda + 1) \)이므로 분산 \( Var(X) = E(X^2) - E(X)^2 
= \lambda^2 + \lambda - \lambda^2 
= \lambda \)

■ 예를 들어, 특정 도로에서 하루동안 밠애하는 교통사고 횟수가 평균 1.5회로 관측되었을 때, 

- 하루동안 발생하는 교통사고 횟수의 확률분포는 \( X \sim Poisson(1.5) \)이며, 확률질량함수는 \( f(x) = \dfrac{1.5^x e^{-1.5}}{x!}, \quad x = 0,1,2, \cdots \)

- 기댓값과 분산은, 평균 1.5회이므로 \( E(X) = Var(X) = 1.5 \)

- 하루동안 교통사고가 2회 발생할 확률은 \( P(X = 2) = f(2) = \dfrac{\lambda^2 e^{-\lambda}}{2!} = \dfrac{(1.5)^2 e^{-1.5}}{2} = 1.125 \times e^{-1.5} \)

- 하루동안 교통사고가 3회 이상 발생할 확률은 \( P(X = 3) = 1 - P(X < 3) = 1 - f(0) - f(1) - f(2) = 1 - \left( \dfrac{1.5^0 e^{-1.5}}{0!} + \dfrac{1.5^1 e^{-1.5}}{1!} + \dfrac{1.5^2 e^{-1.5}}{2!} \right) \)

- 10일 동안 20회의 교통사고가 발생할 확률은, 하루 평균 1.5회면 10일이면 평균 15회라고 볼 수 있다. 10일 동안 발생하는 사고 횟수를 확률변수 \( Y \)라고 하면, \( Y \sim Poisson(15) \)이다. 이를 이용해서 \( P( Y = 20) \)을 계산하면 된다.

 

7. 다항분포

■ 다항분포는 이항분포의 확장 개념으로, 이항분포는 '성공'과 '실패' 두 가지 속성(범주)만 갖는 모집단을 대상으로 하지만, 다항분포는 여러 개의(세 가지 이상의) 속성(범주)을 갖는 모집단에서 발생한다.

■ 여러 개의 속성(범주) 중에서 각 속성이 나타날 횟수를 나타내는 확률변수를 다루는 분포이다.

■ \( k \)개의 속성이 존재하고, 각 속성의 비율이 \( P_1, P_2, \cdots, P_k \)인 무한모집단에서 \( n \)개의 표본을 추출한 경우, '각 속성의 개수'를 \( X_1, X_2, \cdots, X_k \)라 할 때, 다음과 같이 다항분포를 따른다. \( X \sim MN(n, P_1, P_2, \cdots, P_k) \)

■ 다수(\( k \))개의 속성을 갖는 개체들로 구성된 무한모집단에서 일정한 개수의 표본을 취했을 때, 각 속성을 갖는 개체수의 결합확률분포는 

\( P(X_1 = x_1, X_2 = x_2, \cdots, X_k = x_k) = f(x_1, x_2, \cdots, x_k) = \displaystyle\binom{n}{x_1, x_2, \dots, x_k} p_1^{x_1} p_2^{x_2} \dots p_k^{x_k} = \dfrac{n!}{x_1! x_2! \dots x_k!} p_1^{x_1} p_2^{x_2} \dots p_k^{x_k} \) 

여기서 \( p_1 + p_2 + \cdots + p_k = 1, \quad x_1 + x_2 + \cdots + x_k = n, \quad 0 \leq x_i \leq n \)

- \( \dfrac{n!}{x_1! x_2! \cdots x_k!} \)는 \( n \)개의 표본 중 각각의 속성이 \( x_1, x_2, \cdots, x_k \)씩 나오는 경우의 수

- \( P_1^{x_1}, P_2^{x_2}, \cdots, P_k^{x_k} \)는 특정 조합의 확률

■ 다항분포의 중요한 특성 중 하나는 \( X_i \)의 주변분포가 이항분포가 된다는 사실이다.

■ 특정한 \( i \)번째 속성만을 '성공'으로 정하면, 전체 모집단은 '성공'과 '실패' 두 가지 속성만 가지기 때문이다.

■ 그러므로 \( X_i \)의 주변분포는 \(
P(X_i = x_i) = \displaystyle \binom{n}{x_i} p_i^{x_i} (1 - p_i)^{n - x_i}, \quad x_i = 0,1,\dots, n
\)

■ 다항분포는 이항분포를 확장한 개념으로 다항분포의 기댓값과 분산은 이항분포의 기댓값과 분산을 그대로 활용하면 된다. 다항분포를 이루는 각각의 사건은 이항분포이므로 \( E(X_i) = np_i, \quad Var(X_i) = np_i (1 - p_i) \)

'확률' 카테고리의 다른 글

연속형 확률분포 (1)  (0) 2025.02.14
적률생성함수  (0) 2025.02.14
확률변수의 기댓값과 분산, 공분산, 상관계수  (0) 2025.02.05
확률변수와 확률분포  (0) 2024.09.03
확률  (0) 2024.08.28