본문 바로가기

확률

연속형 확률분포(3) - 정규분포와 관련분포(1)

1. 정규분포(Normal Distribution)

■ 정규분포의 확률변수 \( X \)는 정규확률변수(normal random variable)이며, 정규확률변수는 확률변수이므로 어떤 실수를 출력할 것이다. 이때, 정규확률변수가 가질 수 있는 실수의 범위는 \( -\infty < x < \infty \)이다.

■ 정규분포는 가우스(Gauss)분포라고도 부르며,

■ 어떤 현상을 관측했을 때, 관측값이 여러 가지 불확실한 요소에 영향을 받는다면, 해당 값의 분포는 정규분포를 따른다.

■ 즉, 정규분포는 관측 데이터에서 일반적으로 나타나는 형태이며, 그 형태는 2개의 모수인 기댓값 \( \mu \)와 표준편차 \( \sigma \)에 의헤 다음과 같이 어떤 종 모양 형태(Bell-shape)로 결정된다.

[출처] What Every Business Analyst Must Know — Part1: Statistical Measures ❘ by Prof. Frenzel ❘ Medium

- 그래프에 적혀 있는 %의 의미는- \( 1 \cdot \sigma \)일 때, \( P(\mu - \sigma < X < \mu + \sigma) = 0.6826 \)

- \( 2 \cdot \sigma \)일 때, \( P(\mu - 2\sigma < X < \mu + 2\sigma) = 0.9544 \)

- \( 3 \cdot \sigma \)일 때, \( P(\mu - 3\sigma < X < \mu + 3\sigma) = 0.9972 \)

■ 기댓값 \( \mu \)의 범위는 \( -\infty < \mu < \infty \), 표준편차 \( \sigma \)의 범위는 \( 0 < \sigma < \infty \)이며, 기댓값의 분포는 중심 위치를 결정하고, 표준편차의 크기에 따라 위의 그림과 같이 정규분포의 흩어진 정도가 달라진다.

■ 표준편차가 크면 정규분포는 넓게 흩어진 모양이 되고, 표준편차가 작으면 좁게 밀집된 모양으로 나타나는 것을 볼 수 있다.

■ 가로축을 \( x \)이라 하면, \( x = \mu \)일 때, 확률값 \( f(x) \)가 가장 큰 것을 볼 수 있다.

■ 그리고 \( \mu \)로부터 작아지거나(\( \mu - k \cdot \sigma \)), \( \mu \)로부터 커지면(\( \mu + k \cdot \sigma \) 확률값이 작아지는 것도 볼 수 있다. \( k = 1, 2, 3, \cdots \)

■ 또한 정규분포는 \( x = \mu - \sigma \)와 \( x = \mu + \sigma \)에서 변곡점을 갖는다. \( \mu - \sigma \)와 \( \mu + \sigma \) 사이에서는 오목(concave)함수, 나머지 구간에서는 볼록(convex)함수가 된다.

■ 이렇게 정규분포의 형태는 \( \mu \)를 중심으로 대칭이며, \( \sigma \)에 의해 산포가 결정된다. 

■ 정규분포도 연속형 확률분포이므로 전체 영역의 넓이는 1이어야 한다. 이때 \( x = \mu \)를 기준으로 대칭이므로 \( \mu \)를 기준으로 왼쪽 영역의 넓이와 오른쪽 영역의 넓이는 0.5이다. 즉 \( P( \mu \leq X) = 0.5 \)

■ 확률변수 \( X \)가 정규분포를 따르면 \( X \sim N(\mu, \sigma^2) \)으로 표기한다.

- \( \sigma \)는 표준편차, \( \sigma^2 \)은 분산

- 위의 그림과 같은 정규분포의 형태는 실수 \( x \)가 정규분포 \( N(\mu, \sigma^2) \)의 확률밀도함수(p.d.f)를 통해 확률로변환되어 만들어진 패턴이다. 

정규분포 \( N(\mu, \sigma^2) \)의 p.d.f는 다음과 같다.

\( f(x; \mu, \sigma) = \dfrac{1}{\sqrt{2\pi} \sigma} e^{-\dfrac{1}{2} \left( \dfrac{x - \mu}{\sigma} \right)^2}, \quad -\infty < x < \infty, \quad -\infty < \mu < \infty, \quad 0 < \sigma < \infty \)

cf) 참고로 정규분포 그래프에서 대칭 기준이 되는 기준점 \( \mu \)는 기댓값뿐만 아니라 중앙값, 최빈값도 가능하다. 

■ 정규분포의 기댓값과 분산은 다음과 같다.

\( E(X) = \mu, \quad Var(X) = \sigma^2 \)

- \( E(X) = \dfrac{1}{\sqrt{2\pi} \sigma} \displaystyle\int_{-\infty}^{\infty} x e^{-\dfrac{1}{2} \left( \dfrac{x - \mu}{\sigma} \right)^2} \,dx \)

- \( z = \dfrac{x - \mu}{\sigma} \)로 치환하면, \( x = \sigma z + \mu, \quad dx = \sigma \, dz \)

- \( E(X) = \dfrac{1}{\sqrt{2\pi}} \displaystyle\int_{-\infty}^{\infty} (\mu + \sigma z) e^{-\dfrac{z^2}{2}} \,dz = \mu \displaystyle\int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}} \,dz + \dfrac{\sigma}{\sqrt{2\pi}} \displaystyle\int_{-\infty}^{\infty} z e^{-\dfrac{z^2}{2}} \,dz \)

- 이때, \( \displaystyle\int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}} \,dz \)는 평균이 0이고 분산이 1인 정규분포의 적분이며, 적분 범위가 \( -\infty \)부터 \( \infty \)로 전체 범위이다. 그러므로 \( \displaystyle\int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}} \,dz = 1 \)

- \( \displaystyle\int_{-\infty}^{\infty} z e^{-\dfrac{z^2}{2}} \,dz = \displaystyle\int_{-\infty}^{0} z e^{-\dfrac{z^2}{2}} \,dz + \displaystyle\int_{0}^{\infty} z e^{-\dfrac{z^2}{2}} \,dz = \left[ -e^{-\dfrac{z^2}{2}} \right]_{-\infty}^{0} - \left[ -e^{-\dfrac{z^2}{2}} \right]_{0}^{\infty} = 0 \)

\( \Leftrightarrow \quad \left[ -e^{-\dfrac{z^2}{2}} \right]_{-\infty}^{\infty} = - e^{-\infty/2} + e^{-\infty/2} = -e^{-\infty} + e^{-\infty} = 0 + 0 = 0 \)

- 따라서 \( E(X) = \mu \)

- \( Var(X) = E \left[ (X - \mu)^2 \right] = E \left( X^2 \right) - \left( E(X) \right)^2 \)

cf) \( E \left[ (X - \mu)^2 \right] = E \left[ X^2 - 2X\mu + \mu^2 \right] = E \left[ X^2 \right] - 2\mu^2 + \mu^2 = E \left[ X^2 \right] - \mu^2 ( = E \left[ X^2 \right] - E[X]^2 ) \)

- \( Var(X) = E \left[ (X - \mu)^2 \right] = \dfrac{1}{\sqrt{2\pi} \sigma} \displaystyle\int_{-\infty}^{\infty} (x - \mu)^2 e^{-\dfrac{1}{2} \left( \dfrac{x - \mu}{\sigma} \right)^2} \,dx \)

- \( z = \dfrac{x - \mu}{\sigma} \)로 치환하면, \( dx = \sigma \, dz \)

- \( \dfrac{1}{\sqrt{2\pi} \sigma} \displaystyle\int_{-\infty}^{\infty} (x - \mu)^2 e^{-\dfrac{1}{2} \left( \dfrac{x - \mu}{\sigma} \right)^2} \,dx = \dfrac{\sigma^2}{\sqrt{2\pi}} \displaystyle\int_{-\infty}^{\infty} z^2 e^{-\dfrac{z^2}{2}} \,dz \)

- \( z^2 e^{-\dfrac{z^2}{2}} \)은 \( f(-z) = f(z) \)가 성립하는 우함수이다. 그러므로 \( \displaystyle\int_{-\infty}^{\infty} z^2 e^{-\dfrac{z^2}{2}} \,dz = 2 \displaystyle\int_{0}^{\infty} z^2 e^{-\dfrac{z^2}{2}} \,dz \)
- \( t = \dfrac{z^2}{2} \)로 치환하면, 적분구간은 똑같이 0 ~ \( \infty \), \( dt = z \,dz \)이다. 그리고 \( t = \dfrac{z^2}{2} \)에서 \( z = \sqrt{2t} \)이므로 \( dt = z \,dz \)는 \( dz = \dfrac{dt}{\sqrt{2t}} \)

- \( z^2 e^{-\dfrac{z^2}{2}} \,dz = 2t \cdot e^{-t} \cdot \dfrac{1}{\sqrt{2t}} \,dt = (2t)! (2t)^{-\dfrac{1}{2}} e^{-t} \,dt = (2t)^{-\dfrac{1}{2}} e^{-t} \,dt = \sqrt{2t} e^{-t} \,dt \)

- \( 2 \displaystyle\int_{0}^{\infty} z^2 e^{-\dfrac{z^2}{2}} \,dz = 2\sqrt{2} \displaystyle\int_{0}^{\infty} \sqrt{t} e^{-t} \,dt \)

- 감마 함수 \( \Gamma(\alpha) = \displaystyle\int_{0}^{\infty} t^{\alpha - 1} e^{-t} \,dt \)이므로 \( \displaystyle\int_{0}^{\infty} \sqrt{t} e^{-t} \,dt \)는 \( \Gamma(\dfrac{3}{2} \)

- \( \Gamma(x+1) = x \Gamma(x) \)라는 성질을 이용하여 \( \Gamma\left(\dfrac{3}{2}\right) = \Gamma\left(\dfrac{1}{2} + 1\right) = \dfrac{1}{2} \Gamma\left(\dfrac{1}{2}\right) \)이며, \( \Gamma\left(\dfrac{1}{2}\right) = \displaystyle\int_{0}^{\infty} \dfrac{1}{\sqrt{t}} e^{-t} \,dt \)

- \( t = y^2 \)으로 치환하면, \( \displaystyle\int_{0}^{\infty} 2y \cdot \dfrac{1}{y} e^{-y^2} \,dy = \displaystyle\int_{0}^{\infty} 2 e^{-y^2} \,dt = \Gamma\left(\dfrac{1}{2}\right) \)

- \( \Gamma(\dfrac{1}{2}) \)을 두 번 곱하면, (피적분함수 문자를 각각 \( x, y \)로)

- \( \Gamma\left(\dfrac{1}{2}\right) \Gamma\left(\dfrac{1}{2}\right) = 4 \displaystyle\int_{0}^{\infty} e^{-x^2} \,dx \displaystyle\int_{0}^{\infty} e^{-y^2} \,dy = 4 \displaystyle\int_{0}^{\infty} \displaystyle\int_{0}^{\infty} e^{-(x^2 + y^2)} \,dx\,dy \), 이를 극좌표로 변환하면

- \( 4 \displaystyle\int_{0}^{\infty} \displaystyle\int_{0}^{\infty} e^{-(x^2 + y^2)} \,dx\,dy = 4 \displaystyle\int_{0}^{\pi/2} \displaystyle\int_{0}^{\infty} e^{-r^2} r \,dr \,d\theta = \pi \displaystyle\int_{0}^{\infty} 2r e^{-r^2} \,dr = \pi \times \left(e^0 - e^{-\infty}\right) = \pi \)

- \( \Gamma\left(\dfrac{1}{2}\right) \Gamma\left(\dfrac{1}{2}\right) = \pi \Leftrightarrow \left[\Gamma\left(\dfrac{1}{2}\right)\right]^2 = \pi \quad \Rightarrow \quad \Gamma\left(\dfrac{1}{2}\right) = \sqrt{\pi}, \quad \Gamma\left(\dfrac{1}{2}\right) > 0 \)

- \( \Gamma\left(\dfrac{3}{2}\right) = \dfrac{1}{2} \sqrt{\pi} \)이므로 \( 2\sqrt{2} \displaystyle\int_{0}^{\infty} \sqrt{t} e^{-t} \,dt = \sqrt{2\pi} = \displaystyle\int_{-\infty}^{\infty} z^2 e^{-\dfrac{z^2}{2}} \,dz \)

- \( E\left[(X - \mu)^2\right] = \dfrac{\sigma^2}{\sqrt{2\pi}} \displaystyle\int_{-\infty}^{\infty} z^2 e^{-\dfrac{z^2}{2}} \,dz = \dfrac{\sigma^2}{\sqrt{2\pi}} \times \sqrt{2\pi} = \sigma^2 = Var(X) \)

- \( Var(X) = \sigma^2 \)이므로, 표준편차 \( std(X) = \sigma \)

1.1 정규분포의 선형변

\( N(\mu, \sigma^2) \)를 따르는 확률변수 \( X \)에 대해 (\( X \sim N(\mu, \sigma^2) \), 확률변수 \( Y \)를 \( Y = aX+b \)라 하면, \( Y \)는 평균이 \( a \mu + b \)이고, 분산이 \( a^2 \sigma^2 \)인 정규분포를 따른다. \( Y \sim N(a \mu + b, a^2 \simga^2) \)이다.

이렇게 정규분포를 따르는 확률변수를 선형변환하면, 선형변환된 확률변수는 또 다른 정규분포를 따른다.

- \( E(aX+b) = a \mu + b, \quad Var(aX+b) = a^2 \sigma^2 \)

1.2 정규분포의 표준화, 표준정규분포

\( X \sim N(\mu, \sigma^2) \)일 때, 정규분포의 표준화(standardization)는 다음과 같이 확률변수 \( X \)를 \( \dfrac{X - \mu}{\sigma} \)으로 변환하여 기댓값을 0, 표준편차를 1로 만드는 것을 말한다.

\( E(Z) = E\left( \dfrac{X - \mu}{\sigma} \right) = \dfrac{1}{\sigma} E(X - \mu) = \dfrac{1}{\sigma} \left[ E(X) - \mu \right] = 0, \quad \mu = E(X) \)

\( Var(Z) = Var\left( \dfrac{X - \mu}{\sigma} \right) = \dfrac{1}{\sigma^2} Var(X - \mu) = \dfrac{1}{\sigma^2} Var(X) = \dfrac{1}{\sigma^2} \cdot \sigma^2 = 1 \)

- \( Var(aX+b) = a^2 \sigma^2 \), 위의 분산에 대한 식 중 \( Var(X - \mu) \)에서 \( \mu \)는 상수 \( b \)에 해당

- 정규분포의 분산 \( Var(x) = \sigma^2 \)

■ \( X \sim N(\mu, \sigma^2) \)일 때, \( Z = \dfrac{X-\mu}{\sigma} \)라 하면, \( Z \sim N(0, 1) \)이다. 즉, 정규분포를 따르는 확률변수를 표준화하면, 표준정규분포를 따른다.

\( Z = \dfrac{X - \mu}{\sigma} \Leftrightarrow X = \sigma Z + \mu \)로 나타낼 수 있으며, 이는 정규분포의 선형변환이다. 그러므로, 일반적인 정규분포를 따르는 확률변수를 표준화하면 표준정규분포(standard normal distribution)를 따르는 확률변수를 얻는다.

■ 즉, 표준정규분포는 \( \mu = 0, \sigma = 1 \)인 정규분포이며, 새로운 확률변수 \( Z \)가 표준정규분포를 따르면 \( Z \sim N(0, 1) \)로 표기한다.

표준정규분포를 따르는 \( Z \)의 확률밀도함수는 다음과 같다. 이때, \( z \)의 범위는 \( -\infty < z < \infty \)을 가진다.

\( \phi(z) = \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}}, \quad -\infty < z < \infty \)

- \( \mu = 0, \sigma = 1 \)이며, 표준정규분포는 '정규분포'이기 때문에 확률밀도함수인 파이 \( \phi(z) \)는 \( \mu = 0 \)에서 대칭성을 갖는다. 그러므로 \( \phi(z) = \phi(-z) \)가 성립한다. 즉, 표준정규분포의 확률밀도함수는 우함수이다.

표준정규분포, \( \sigma = 1 \)

표준정규분포는 \( \sigma = 1 \)이므로 \( P( Z \leq 1) \)의 값이 약 0.84

- 위에서 적은 정규분포의 각 구간에 대한 확률값은 \( \mu = 0, \sigma = 1 \)이므로, 다음과 같이 바뀌게 된다.

- \( P(- 1 < X < 1) = 0.6826 \)

- \( P(- 2< X < 2) = 0.9544 \)

- \( P(- 3< X < 3) = 0.9972 \)

■ 일반적인 정규분포의 확률변수 \( X \)가 \( a \)부터 \( b \)사이에 있을 확률(\( P(a \leq X \leq b) \)를 구하기 위해서는 정규분포의 확률밀도함수 \( f(x) \)를 적분해야 하는데, \( P(a \leq X \leq b) = \displaystyle \int_{a}^{b} \dfrac{1}{\sqrt{2\pi} \sigma} e^{-\dfrac{1}{2} \left( \dfrac{x - \mu}{\sigma} \right)^2 } dx \)를 (손으로) 계산하기 어렵다. 이를 풀기 위해 표준정규분포로 변환하다.

■ 확률변수 \( X \)를 변환하여 \( Z = \dfrac{X - \mu}{\sigma} \)로 정의하면, 새로운 확률변수 \( Z \)는 표준정규분포를 따른다.

그러므로 다음과 같은 표를 통해 표준정규분포에 대한 확률을 구하면, 일반적인 정규분포에서의 확률을 쉽게 구할 수 있다.

cf) 표준정규분포는 \( \mu = 0, \sigma = 1  \)로 고정이기 때문에 \( P(a \leq X \leq b) = \displaystyle \int_{a}^{b} \dfrac{1}{\sqrt{2\pi} \sigma} e^{-\dfrac{1}{2} \left( \dfrac{x - \mu}{\sigma} \right)^2 } dx \)를 더 간단히 표현할 수 있다.

■ 표준정규분포로 변환하여 계산하는 방법은 다음과 같다.

\( P(a \leq X \leq b) = P \left( \dfrac{a - \mu}{\sigma} \leq Z \leq \dfrac{b - \mu}{\sigma} \right) 
= P \left( Z \leq \dfrac{b - \mu}{\sigma} \right) - P \left( Z \leq \dfrac{a - \mu}{\sigma} \right) 
= \Phi \left( \dfrac{b - \mu}{\sigma} \right) - \Phi \left( \dfrac{a - \mu}{\sigma} \right) \)

■ 여기서 함수 \( \Phi(z) \)는 표준정규분포를 따르는 \( Z \)의 누적분포함수(c.d.f)이다. 그러므로, \( \Phi(z) \)는 \( -\infty \)에서 \( z \)까지 누적한 확률을 의미한다.

\( \Phi(z) = P(Z \leq z) \)

■ 예를 들어, 표준정규분포에서 다음과 같은 \( P(Z > z_1) \)을 계산할 때

■ 전체 면적이 1이라는 점과 대칭이라는 점을 이용하면 \( z_1 \)보다 큰 부분의 면적은, 전체 면적에서 \( z_1 \)보다 작은 면적을 뺀 값과 같다. 그러므로 \( P(Z > z_1) = 1 - P(Z \leq z_1) = 1 - \Phi(z_1) \)로 나타낼 수 있다.

■ 이번에는 다음과 같이 \( P(Z < -z_1) \)을 계산하는 경우

\( P(Z < -z_1) \)은 \( \Phi(-z_1) \)으로 나타낼 수 있다.

■ 이때, 표준정규분포가 0에서 대칭이라는 점을 고려하면 \( P(Z < -z_1) = P(Z > z_1) \)이므로 \( P(Z < -z_1) = P(Z > z_1) = 1 - P(Z < z_1) = 1 - \Phi(z_1) \)이 된다.

그러므로 \( \Phi(-z_1) = 1 - \Phi(z_1) \)이 성립한다. 

■ 다음은 \( z \)가 음수와 양수 값 사이에 있는, 다음과 같이 \( P(-z_1 < Z < z_2) \)인 경우이다.

■ 이런 경우는 \( z_2 \)까지의 면적에서 \( -z_1 \)보다 작은 부분의 면적을 빼면 된다.

■ 즉, \( P(-z_1 < Z < z_2) = P(Z < z_2) - P(Z < -z_1) = \Phi(z_2) - (1 - \Phi(z_1)) \)

■ 예를 들어

- \( P(Z \leq 0.25) = \Phi(0.25) = 0.5987 \)

- \( P(Z \geq 0.25) = 1 - \Phi(0.25) = 0.4013 \)

- \( P(0.1 \leq Z \leq 0.25) = \Phi(0.25) - \Phi(0.1) = 0.5987 - 0.5398 = 0.0589 \)

- \( P(Z \leq -0.1) = P(Z \geq 0.1) = 1 - \Phi(0.1) = 1 - 0.5398 = 0.4602 \)

 예를 들어 시험 점수가 \( \mu = 75, \sigma = 10 \)인 정규분포를 따를 때, 80점과 90점 사이의 점수가 차지하는 비율은

- \( X \sim N(75, 10^2) \)이므로, \( Z = \dfrac{X - 75}{10} \sim N(0 ,1) \)이다. 그러므로

- \( P(80 \leq X \leq 90) = P \left( \dfrac{80 - 75}{10} \leq \dfrac{X - 75}{10} \leq \dfrac{90 - 75}{10} \right) = P(0.5 \leq Z \leq 1.5) \)

- 표준정규분포에 의해 \( P(0.5 \leq Z \leq 1.5) = \Phi(1.5) - \Phi(0.5) = 0.9332 - 0.6915 = 0.2417 \)

하위 5%인 위치의 점수는

- 하위 5% 점수를 \( k \)라 하면, \( P( X \leq k ) = 0.05 \)이므로 \( P \left( \dfrac{X - 75}{10} \leq \dfrac{k - 75}{10} \right) = \Phi \left( \dfrac{k - 75}{10} \right) = 0.05 \)

- 표준정규분포에서 \( P( Z \leq 0) = 0.5 \)이다. 그러므로 \( \Phi \left( \dfrac{k-75}{10} \right) = P(Z \leq \dfrac{k-75}{10} = 0.05 \)에서 \( \dfrac{k-75}{10} < 0 \)이라는 것을 알 수 있다.

-- 0보다 작거나 같을 확률이 0.5이므로, 확률이 0.05라는 것은 0보다 작다. \( \dfrac{k-75}{10} < 0 \) 즉, 음수가 된다.

- 대칭성을 이용하면, \( 1 - \Phi \left( \dfrac{75 - k}{10} \right) = 0.05 \)이므로, \( \Phi \left( \dfrac{75 - k}{10} \right) = 0.95 \)이다.
-  따라서 \( \dfrac{75 - k}{10} = \Phi^{-1} (0.95) \)로 볼 수 있으며, 0.95는 \( z = 1.64 \)와 \( z = 1.65 \) 사이에 있다.

- 이렇게 사이에 있는 경우 \( z = 1.64 \) 또는 \( z = 1.65 \)를 사용할 수도 있고, 그 중간값인 \( z = 1.645 \)를 사용할 수도 있다.

- \( \dfrac{75-k}{10} = 1.645 \)라고 한다면, \( k = 58.55 \)

■ 표준정규분포 \( Z \sim N(0,1) \)의 적률생성함수는 표준정규분포의 p.d.f가 \( \phi(z) = \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}} \)이므로 

\( m_Z (t) = E \left[ e^{tZ} \right] = \displaystyle \int_{-\infty}^{\infty} e^{t z} \cdot \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}} dz 
= \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2} + t z} dz 
= \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{1}{2} (z - t)^2} \cdot e^{\frac{1}{2} t^2} dz 
= e^{\frac{1}{2} t^2} \)

- \( \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{1}{2} (z - t)^2} \)는 파라미터가 \( \mu = t \)이며, \( \sigma = 1 \)인 정규분포의 전체 구간에 대한 적분이므로 \( \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{1}{2} (z - t)^2} = 1 \)

■ 표준정규분포의 적률생성함수를 이용하면, 정규분포의 적률생성함수를 통해 정규분포의 기댓값과 분산을 구할 수 있다.

- \( m_X (t) = =E \left[ e^{tX} \right] = \displaystyle \int_{-\infty}^{\infty} e^{t x} \cdot \dfrac{1}{\sqrt{2\pi} \sigma} e^{-\dfrac{(x - \mu)^2}{2 \sigma^2}} dx \)이며, 

- \( \dfrac{x - \mu}{\sigma} = z \)로 치환하면 \( x = \sigma z + \mu, \; dx = \sigma dz \)

- 따라서 \( m_X (t) = \displaystyle \int_{-\infty}^{\infty} e^{(\sigma z + \mu) t} \cdot \dfrac{1}{\sqrt{2\pi} \sigma} e^{-\dfrac{z^2}{2}} \sigma dz = e^{\mu t} \displaystyle \int_{-\infty}^{\infty} e^{\sigma z t} \cdot \dfrac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} dz 
= e^{\mu t} m_Z (\sigma t) \)
- \( m_Z(t) \)는 표준정규분포 \( Z \sim N(0, 1) \)의 적률생성함수로 

- \( M_Z ( \sigma t ) = \displaystyle \int_{-\infty}^{\infty} e^{\sigma t z} \cdot \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2}} dz = \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{z^2}{2} + \sigma t z} dz = \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{1}{2} (z - \sigma t)^2} \cdot e^{\dfrac{1}{2} (\sigma t)^2} dz = e^{\frac{1}{2} (\sigma t)^2} \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{1}{2} (z - \sigma t)^2} dz
= e^{\dfrac{1}{2} (\sigma t)^2} \)
- \( \displaystyle \int_{-\infty}^{\infty} \dfrac{1}{\sqrt{2\pi}} e^{-\dfrac{1}{2} (z - \sigma t)^2} dz = 1 \)

■ 따라서 \( m_X (t) = e^{\mu t} M_Z (\sigma t) = e^{\mu t} \cdot e^{\dfrac{1}{2} (\sigma t)^2} = e^{\mu t + \dfrac{1}{2} \sigma^2 t^2} \)

- \( m'_X (t) = (\mu + \sigma^2 t) \cdot e^{\mu t + \dfrac{1}{2} \sigma^2 t^2}, \quad m'_X (0) = \mu = E (X) \)

- \( m''_X (t) = \sigma^2 \cdot e^{\mu t + \frac{1}{2} \sigma^2 t^2} + (\mu + \sigma^2 t)^2 e^{\mu t + \frac{1}{2} \sigma^2 t^2}, \quad m''_X (0) = \mu^2 + \sigma^2 \)

- \( Var(X) = (\mu^2 + \sigma^2) - \mu^2 = \sigma^2 \)

■ 정규분포의 선형변환 '\( N(\mu, \sigma^2) \)를 따르는 확률변수 \( X \)에 대해, 확률변수 \( Y = aX + b \)는 정규분포 \( N(a \mu + b, a^2 \sigma^2) \)를 따른다.'를 정규분포의 적률생성함수를 통해 증명할 수 있다.

- 정규분포를 따르는 확률변수 \( X \)가 있고, \( X \)를 선형변환한 새로운 확률변수를 \( Y = aX + b \)라고 할 때,

- \( X \)의 적률생성함수(m.g.f)는 \( m_X (t) = e^{\mu t + \dfrac{1}{2} \sigma^2 t^2} \)이므로, \( m_Y (t) = E \left[ e^{t Y} \right] = E \left[ e^{t (aX + b)} \right] 
= e^{t b} E \left[ e^{t a X} \right] = e^{t b} m_X (t a) \)

- \( e^{t b} m_X (t a) = e^{t b} \cdot e^{\mu t a + \dfrac{\sigma^2 (t a)^2}{2}} 
= e^{(a \mu + b) t + \dfrac{(a \sigma)^2 t^2}{2}} \)이다.

- \( M_Y (t) = e^{(a \mu + b) t + \dfrac{(a \sigma)^2 t^2}{2}} \)라는 것은 기댓값이 \( a \mu + b \)이고, 분산이 \( a^2 \sigma^2 \)인 정규분포의 적률생성함수이다. 

■ 적률생성함수는 분포를 유일하게 결정하므로(=각 확률분포는 고유한 적률생성함수를 가지므로) \( Y \)는 정규분포 \( N( a \mu + b, a^2 \sigma^2 \)를 따른다고 할 수 있다.

1.3 정규분포의 합(정규분포의 가법성)

1.3.1 정규분포의 가법성1

\( X \sim N(\mu_1, \sigma^2_1), \; Y \sim N(\mu_2, \sigma^2_2) \)일 때, \( Cov(X, Y) = \sigma_{12} \)라고 하면, \( X + Y \sim N( \mu_1 + \mu_2, \sigma^2_1 + \sigma^2_2 + 2\sigma_{12}) \)이다.

■ \( X \)와 \( Y \)가 정규분포를 따르고 \( Cov(X, Y) = \sigma_{12} \)이면(두 확률변수가 독립이 아니면), \( X + Y \)는 \( \mu \)가 \( \mu_1 + \mu_2 \)이고 \( \sigma^2 \)이 \( \sigma^2_1 + \sigma^2_2 + 2\sigma_{12} \)인 정규분포를 따른다.

- \( X \)의 \( \mu \)는 \( \mu_1 \), \( Y \)의 \( \mu \)는 \( \mu_2 \)이므로 \( X + Y \)의 \( \mu \)는 \( \mu_1 + \mu_2 \)

- \( X + Y \)의 분산은 \( Var(aX+bY) = a^2 Var(X) + b^2 Var(Y) + 2ab Cov(X, Y) \)이므로 \( Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) \). 즉, \( \sigma^2_1 + \sigma^2_2 + 2 \sigma_{12} \)이다. 

■ 만약, 두 확률변수가 독립이라면 \( E(XY) = E(X)E(Y) \)가 성립하므로 공분산 \( Cov(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0 \)

- 두 확률변수가 독립 \( \rightarrow \) 공분산 \( Cov(X, Y) = 0 \) (O), 공분산 \( Cov(X, Y) = 0 \rightarrow \) 두 확률변수가 독립 (X)

\( X \sim N(\mu_1, \sigma^2_1), \; Y \sim N(\mu_2, \sigma^2_2) \)일 때, 두 확률변수 \( X \)와 \( Y \)가 서로 독립이라면, \( X + Y \sim N(\mu_1 + \mu_2, \sigma^2_1 + \sigma^2_2) \)

- \( Var (X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y) \)에서 \( X \)와 \( Y \)가 독립이므로 \( Cov(X, Y) = 0 \). 그러므로 \( Var(X + Y) = Var(X) + Var(Y) \)이며, \( X \)의 분산을 \( \sigma^2_1 \), \( Y \)의 분산을 \( \sigma^2_2 \)라고 하였으니,  \( Var(X+Y) = \sigma^2_1 + \sigma^2_2 \)가 된다.

이렇게 정규분포의 합도 정규분포를 따르는 이유는 위의 정규분포 선형변환에서 본 것처럼 '적률생성함수-확률분포'의 관계에 있다.

■ 예를 들어, 두 확률변수 \( X \)와 \( Y \)가 독립인 경우 \( X + Y \)의 적률생성함수는

- \( m_{X+Y} (t) = E \left[ e^{t (X+Y)} \right] = E \left[ e^{tX} e^{tY} \right] = E \left[ e^{tX} \right] E \left[ e^{tY} \right] \),

-- \( X \)와 \( Y \)가 독립이므로 \( E(XY) = E(X)E(Y) \)임을 이용

- \( E \left[ e^{tX} \right] E \left[ e^{tY} \right] = m_X (t) m_Y (t) \)

- \( m_X (t) = e^{\mu_1 t + \dfrac{1}{2} \sigma_1^2 t^2}, \quad m_Y (t) = e^{\mu_2 t + \dfrac{1}{2} \sigma_2^2 t^2} \)이므로

- \( m_{X+Y} (t) = m_X (t) m_Y (t) = e^{(\mu_1 + \mu_2) t + \dfrac{(\sigma_1^2 + \sigma_2^2) t^2}{2}} \)이다. 

- 이는 기댓값이 \( \mu_1 + \mu_2 \)이고, 분산이 \( \sigma^2_1 + \sigma^2_2 \)인 정규분포의 적률생성함수(m.g.f)이다. 각 확률분포는 고유한 m.g.f를 가지므로, 두 확률변수가 독립일 때, \( X + Y \sim N(\mu_1 + \mu_2, \; \sigma^2_1 + \sigma^2_2) \)이 성립

■ 예를 들어, 어떤 볼트의 직경(\( X \))은 \( N(20, 0.3^2) \)을 따르고, 너트의 직경(\( Y \))은 \( N(21.5, 0.4^2) \)을 따른다면, 볼트가 너트에 안 들어갈 확률은

- 볼트가 너트 직경보다 더 커야 한다. 그러므로 \( X > Y \)여야 한다.

- 즉, 볼트가 너트에 안 들어갈 확률은 \( P(X > Y) = P( Y - X < 0) \)이 된다.

- \( X \sim N (20, 0.3^2), \quad Y \sim N (21.5, 0.4^2) \)이므로 \( Y - X \sim N (1.5, 0.3^2 + 0.4^2) \)
-- \( X \sim N (\mu, \sigma^2) \)이면, \( -X \sim N(-\mu, \sigma^2) \)이다. 그러므로 \( Y + (-X) \sim N(21.5 + (-20), 0.4^2 + 0.3^2) = \( Y - X \sim N(1.5, 0.4^2 + 0.3^2) \)이 된다.

- \( P( Y - X < 0) \)을 표준화하면, \( P(Y - X < 0) = P \left( Z < \dfrac{0 - 1.5}{0.5} \right) = P(Z < -3) = \Phi(-3) = 1 - \Phi(3) = 1 - 0.9987 = 0.0013 \)

1.3.1 정규분포의 가법성2

정규분포의 가법성2는 가법성1을 확장한 개념이다.

\( X_i \sim N (\mu_i, \sigma_i^2), \quad i = 1, 2, \cdots, n \)일 때, \( Cov (X_i, X_j) = \sigma_{ij} \)라 하면, \( \displaystyle\sum_{i=1}^{n} X_i \sim N \left( \displaystyle\sum_{i=1}^{n} \mu_i, \; \displaystyle\sum_{i=1}^{n} \sigma_i^2 + 2 \displaystyle\sum_{i<j}^{n} \sigma_{ij} \right) \)이다.
■ 이것은 \( X_1 \)부터 \( X_n \)까지 정규분포를 따를 때, 정규분포를 따르는 \( n \)개의 \( X_1, X_2, \cdots, X_n \)을 다 더한 것도 정규분포를 따른다는 의미이다.

■ 만약  \( X_1, X_2, \cdots, X_n \)이 독립이라면, 

\( X_i \sim N (\mu_i, \sigma_i^2), \quad i = 1, 2, \cdots, n \)은 \( Cov (X_i, X_j) = 0 \)이므로 \( \displaystyle\sum_{i=1}^{n} X_i \sim N \left( \displaystyle\sum_{i=1}^{n} \mu_i, \; \displaystyle\sum_{i=1}^{n} \sigma_i^2 \right) \)이 성립한다.

■ 예를 들어, 각각의 길이가 \( N(12.5, 2^2) \)를 따르는 4개의 막대를 일렬로 연결했을 때, 전체 길이(\( X \))가 40과 60 사이일 확률은

- 전체 길이라는 확률변수 \( X \)는 각각의 길이가 동일한 정규분포를 따르는 4개의 막대 길이(\( X_1, X_2, X_3, X_4 \))를 일렬로 연결한 것이므로

- \( X = X_1 + X_2 + X_3 + X_4 \sim N(12.5 \times 4, \; 2^2 \times 4) = N(50,\; 4^2) \)가 된다. 즉, 전체 길이 \( X \)는 평균이 50이고 표준편차가 4인 정규분포를 따른다.

- \( P( 40 < X < 60) \)에 표준화를 적용하면, \( P(40 < X < 60) = P \left( \dfrac{40 - 50}{4} < \dfrac{X - 50}{4} < \dfrac{60 - 50}{4} \right) = P(-2.5 < Z < 2.5) \)

- \( P(-2.5 < Z < 2.5) = \Phi(2.5) - \Phi(-2.5) = \Phi(2.5) - (1 - \Phi(2.5)) = 2\Phi(2.5) - 1 = 0.9876 \)

 

2. 이항분포의 정규근사(Normal Approximation to the Binomial Distribution)

■ 이항분포는 이산형 확률분포로 시행 횟수 \( n \)과 성공 확률 \( p \)라는 파라미터를 갖는다. \( X \sim Binomial(n, p) \)

■ 이항분포의 정규근사가 의미하는 것은, 연속형 확률분포인 정규분포와 이산형 확률분포인 이항분포가 '근사'된다는 것으로, 이는 어떤 특정 조건 하에서 확률을 구할 때, 정규분포로 구할 것을 이항분포로 또는 이항분포로 구할 것을 정규분포로 계산해도 값이 비슷(근사)하다.는 것이다.

■ 앞서 명시한 '특정 조건'은 이항분포의 파라미터 \( n \)이 적당히 큰 값이며( \( n \) is reasonably large ), \( p \)가 너무 0과 가깝지도 혹은 1과 가깝지도 않은 상황( \( p \) is not too close 0 or to 1 )이다. 

■ 위와 같은 조건을 만족하는 상황에서 이항분포를 따르는 이항확률변수 \( X \)는, 평균이 이항확률변수 \( X \)의 기댓값인 \( np \)이고, 분산이 이항확률변수 \( X \)의 분산인 \( np(1-p) \)가 되는 정규분포 \( N(np, np(1-p)) \)를 따르는 확률변수와 비슷하다. 

즉, 위의 평균과 분산을 따르는 정규분포를 \( Y \)라고 한다면, 다음 그림처럼 이항확률변수 \( X \)는 정규확률변수 \( Y \)에 근사한다.( = \( X \)와 \( Y \)가 비슷하다.)

\( X \sim Binomial (n, p) \approx Y \sim Normal \left( np, np(1 - p) \right) \)

[출처] https://blogs.sas.com/content/iml/2012/03/14/the-normal-approximation-to-the-binomial-distribution-how-the-quantiles-compare.html

위의 그림과 같이 특정 조건 하에[서 두 분포의 그래프가 비슷한 것을 볼 수 있다.

-  그리고 다음 그림과 같이 이항분포에서 \( n \)이 커질수록 정규분포의 형태에 근사하는 것을 볼 수 있다.

■ 일반적으로 \( n \geq 30 \)이면 충분하지만, 모집단의 분포가 크게 치우쳐져 있다면, 더 큰 \( n \)이 필요하다.

■ 이항분포의 정규근사는 이항분포의 c.d.f를 구할 때, 정규근사를 통해 더 간단하게 계산할 수 있다는 장점이 있다.

■ \( X \sim B(n, p) \)일 때, \( P(X \leq b) \)를 계산하려면, \( p(X \leq b) = \sum_{x=0}^{b} P(X = x) \)로 \( P(X = 0) \)부터 \( P(X = b) \)까지 모두 계산하여 더해야 하기 때문이다.

■ 이항분포의 정규근사는 '중심극한정리(central limit theorem)'를 기반으로, \( n \)이 충분히 클 때(정확히는 \( n \rightarrow \infty \)로 갈 때), 독립적인 많은 확률변수의 합이 정규분포에 근사하는 경향을 이항분포에 적용한 것이다.

연속형 확률분포(3) - 정규분포와 관련분포(2)

 

연속형 확률분포(3) - 정규분포와 관련분포(2)

1. 통계량과 추정량1.1 모집단과 표본■ 모집단은 관심 대상이 되는 전체 데이터의 집합이다. 연구대상이 되는 모든 가능한 관측치나 측정치의 집합을 모집단 또는 통계적 모집단이라고 한다. 

hyeon-jae.tistory.com

2.1 이항분포의 정규근사 - 표준정규분포

\( X \sim Binomial (n, p) \approx Y \sim Normal \left( np, np(1 - p) \right) \)에서 정규분포를 따르는 \( Y \)를 표준화해서 표준정규분포로 만들 수 있다.

■ \( Y \)를 표준화하면, \( Z = \dfrac{Y - np}{\sqrt{np(1 - p)}} \sim N(0,1) \)

\( X \approx Y \). 즉 \( X \)와 \( Y \)가 근사적으로 같기 때문에 \( Z = \dfrac{X - np}{\sqrt{np(1 - p)}} \overset{a}{\sim} N(0,1) \)로 표현할 수 있다.

- 위의 에서 \( a \)는 approximation를 의미.

정리하면, 이항확률변수 \( X \)가 \( X \sim B(n, p) \)이면, \( Z = \dfrac{X - np}{\sqrt{np(1 - p)}} \overset{a}{\sim} N(0,1) \)

2.2 이항분포의 정규근사 - 연속성 수정(continuity correction)

■ 이항분포는 이산형 확률분포, 정규분포는 연속형 확률분포라는 특성상 정확하게 일치시키기 어렵다.

그래서 다음과 같이 \( P( X = i ) \)를 계산할 때, \( P\left( i - 0.5 \leq X \leq i + 0.5 \right) \)로 정규근사를 적용하기 전에, \( \pm 0.5 \)를하여 근사치의 값을 더 정확하게 만들어준다. 여기서 \( \pm 0.5 \)를 연속성 수정이라고 한다.

\( b(x; n, p) \approx P \left[ \dfrac{(x - 0.5) - np}{\sqrt{np(1 - p)}} \leq Z \leq \dfrac{(x + 0.5) - np}{\sqrt{np(1 - p)}} \right] 
= \Phi \left( \dfrac{(x + 0.5) - np}{\sqrt{np(1 - p)}} \right) - \Phi \left( \dfrac{(x - 0.5) - np}{\sqrt{np(1 - p)}} \right) \)

■ 즉, 연속성 수정은 이산형인 이항분포를 연속형으로 바꿔줄 때, \( \pm 0.5 \)를 통해 연속형 그래프가 가지는 연속성을 위한 수정(혹은 보정)이라고 할 수 있다.

cf) \( \pm 0.5 \)는 이항분포를 정규분포로 더 정확히 근사하도록 하는 값으로, 근사 시 실제 확률값과 더 가까운 값을 얻을 수 있게 해준다. 이 값은 경험적으로 도출된 것이다.

■ 예를 들어, 불량률이 \( p = 0.2 \)인 공장에서 \( n = 25 \)개의 제품을 검사했을 때, 4개 이하의 불량품이 발견될 확률은

- 정확하게 이항분포로 계산하면 \( P(X \leq 4) = \displaystyle\sum_{x=0}^{4} \displaystyle\binom{25}{x} (0.2)^x (0.8)^{25-x} = 0.4207

- \( X \)의 기댓값은 \( np = 25 \times 0.2 = 5 \), 분산은 \( np(1-p) = 25 \times 0.2 \times 0.8 = 4 \)

- 이항분포의 정규근사를 이용하여 근사적으로 계산하면, 다음과 같이 오차가 발생한다.

- \( P(X \leq 4) = P( \dfrac{X-5}{2} \leq \dfrac{4-5}{2} ) = P(Z \leq -0.5) = 0.3085 \)

- 연속성 보정을 적용하면

- \( P(X \leq 4) = P( X \leq 4.5) = P(Z \leq \dfrac{4.5-5}{2}) = \Phi(-0.25) = 0.4013 \) 으로 오차가 줄어든 것을 확인할 수 있다.

'확률' 카테고리의 다른 글

연속형 확률분포(3) - 정규분포와 관련분포(2)  (0) 2025.02.17
연속형 확률분포 (2)  (0) 2025.02.14
연속형 확률분포 (1)  (0) 2025.02.14
적률생성함수  (0) 2025.02.14
이산형 확률분포  (0) 2025.02.14