본문 바로가기

확률

적률생성함수

1. 적률(Moment)

기댓값, 분산은 확률변수에 대한 의미있는 정보를 제공하지만, 이 정보만으로 분포를 결정할 수는 없다.

■ 추가로 \( E(X^3) \) 왜도(skewness), \( E(X^4) \) 첨도(kurtosis)를 얻을 수 있다면, 확률변수 \( X \)에 대해 더 잘 파악할 수 있다.

■ 확률변수 \( X \)에 대하여 \( E(X^k) \)를 \( k \)차 적률이라고 하며, \( \mu_k' \)으로 표기한다. 그리고 \( E((X-E[X])^k) \)를 \( X \)의 \( k \)차 중심 적률(central moment) 또는 \( k \)차 중심 모멘트라고 한다.

■ \( k \)차 적률은 다음과 같이 확률변수 \( X^k \)의 평균으로 정의하며, 이산형인지 연속형인지에 따라 더하거나 적분을 계산한다. 

■ 이러한 적률(moment)은 확률이 어떻게 분포하는지 설명해준다.

■ 이 적률을 계산하기 위해 사용하는 것이 '적률생성함수(moment generating function, mgf)이다.

 

2. 적률생성함수

■ 확률변수 \( X \)의 적률생성함수 \( m(t) \)는 \( m(t) = E[e^{tX}] \)이다. 

■ 적률생성함수도 마찬가지로 이산형인지 연속형인지에 따라 다음과 같이 더하거나 적분을 계산한다.

- \( m(t) = E[e^{tX}] \)는 \( t \)에 대한 함수이다.

\(
m(t) = E(e^{tX}) = 
\begin{cases}
\displaystyle \sum_{x} e^{t x} p(x), & \text{if } X \text{ is discrete with mass } p(x) \\[10pt]
\displaystyle \int_{-\infty}^{\infty} e^{t x} f(x) \,dx, & \text{if } X \text{ is continuous with density } f(x)
\end{cases}
\)

급수 전개한 적률생성함수를 '미분'하여 모든 차수의 적률을 얻을 수 있다.

■ 테일러 전개에 의해 \(
e^{tx} = 1 + tx + \dfrac{t x^2}{2!} + \dfrac{t x^3}{3!} + \cdots + \dfrac{t x^n}{n!} + \cdots
\)

■ 양변에 기댓값을 씌우면

\(
E \left[ e^{tX} \right] = E \left[ 1 + tX + \dfrac{(tX)^2}{2!} + \dfrac{(tX)^3}{3!} + \cdots + \dfrac{(tX)^n}{n!} + \cdots \right]
\)
\(
= 1 + t E(X) + \dfrac{t^2}{2!} E(X^2) + \dfrac{t^3}{3!} E(X^3) + \cdots + \dfrac{t^n}{n!} E(X^n) + \cdots
\)
\(
= 1 + t \mu'_1 + \dfrac{t^2}{2!} \mu'_2 + \dfrac{t^3}{3!} \mu'_3 + \cdots + \dfrac{t^n}{n!} \mu'_n + \cdots = m(t)
\)

■ 급수로 전개한 적률생성함수 \( m(t) \)에 대해 1차 미분을 하면 \( m'(t) = \mu'_1 + \mu'_2 t + \mu'_3 \dfrac{t^2}{2} + \cdots \)

■ 급수로 전개한 적률생성함수 \( m(t) \)에 대해 2차 미분을 하면 \( m'(t) = \mu'_2 + \mu'_3 t + \mu'_4 \dfrac{t^4}{2!} + \cdots \)

■ 이렇게 적률생성함수 \( m(t) \)를 \( k \)번 미분한 후 \( t = 0 \)을 대입하면, \( k \)차 적률 \( \mu_k' \)를 얻는다.

- \( m'(0) = \mu'_1 = E(X) \)는 1차 모멘트(적률)

- \( m''(0) = \mu'_2 = E(X^2) \)는 2차 모멘트(적률)

- \( m^{(k)}(0) = \mu'_k = E(X^k) \)는 \( k \)차 모멘트(적률)

2.1 평균, 분산, 왜도, 첨도

■ 지금까지의 적률은 원점에 대한 적률이다. 원점에 대한 \( k \)차 적률 \( \mu_k' \)는 다음과 같이 정의된다.

\(
\mu'_k = E\left[ (X - 0)^k \right]
\)

■ 0 대신 평균 \( \mu \)를 넣은 것을 \( k \)차 중심적률 \( \mu_k \)라고 한다.

\(
\mu_k = E \left( (X - E[X])^k \right)
\)

■ 그리고 \( k \)차 중심적률을 표준펀차의 \( k \)제곱으로 나눈 것을 \( k \)차 표준화 적률 \( \tilde{\mu}_k \)라고 한다.

\(
\widetilde{\mu}_k = \dfrac{\mu_k}{\sigma^k} = E \left[ \left( \dfrac{X - E[X]}{\sigma} \right)^k \right]
\), 여기서 \( \sigma \)는 상수이므로
\(
E \left[ \left( \dfrac{X - E[X]}{\sigma} \right)^k \right] = \dfrac{E \left[ (X - E[X])^k \right]}{\sigma^k}
\)

■ 적률생성함수를 \( t = 0 \)에서 한 번 미분한 것을 1차 적률이라고 한다.

■ 1차 적률 \( \mu_1 \)이 의미하는 것은 확률변수의 평균(기댓값) \( E(X) \)이다.

■ 2차 적률은 확률변수의 분산과 관계가 있다. \( E(X^2) \)이기 때문이다. 분산 \( Var(X) = E(X^2) - E(X)^2 \) = '2차적률 - 1차 적률의 제곱'으로 구할 수 있다.

■ 분산은 2차 중심적률을 사용하여 간단히 구할 수도 있다. \( \mu_2 = E \left[ (X - E[X])^2 \right] = Var(X) \)

■ 3차 적률은 확률분포의 왜도(비대칭도)를 측정한다. 3차 표준화 적률 \( \widetilde{\mu_3} = \dfrac{E[(X - E[X])^3]}{\sigma^3} \)이 왜도이다.

■ 왜도는 다음과 같이 비대칭의 정도를 나타내는 지표이다. 비대칭은 분포의 기울어짐으로 인해 생기는 것이기 때문에, 데이터가 '어느 쪽으로 몰려있는지' 판단할 수 있다.

[출처] https://commons.wikimedia.org/wiki/File:Relationship_between_mean_and_median_under_different_skewness.png

- 정규분포처럼 평균을 중심으로 완전 대칭이면, 왜도가 없는 것이기 때문에 왜도 = 0 이된다.

- 왼쪽 그림처럼 데이터 분포의 꼬리가 오른쪽으로 긴 꼬리를 갖는 형태가 되면, 이때의 왜도는 '양수'이며 '오른쪽 치우침(positive skewness)'이라고 한다.

- 오른족 그림처럼 데이터 분포의 꼬리가 왼쪽으로 긴 꼬리를 갖는 형태가 되면, 이때의 왜도는 '음수'이며 '완쪽으로 치우침(negative skewness)'이라고 한다.

■ 4차 적률은 확률분포의 첨도(뾰족함)를 측정한다. 4차 표준화 적률 \( \widetilde{\mu_4} = \dfrac{E[(X - E[X])^4]}{\sigma^4} \)이 첨도이다.

■ 첨도를 통해 다음 그림과 같이 데이터가 '얼마나 몰려있는지' 판단할 수 있다.

[출처] https://analystprep.com/cfa-level-1-exam/quantitative-methods/kurtosis-and-skewness-types-of-distributions/

- 정규분포의 경우 첨도 = 3

양의 첨도를 가지며 첨도가 3을 넘어가는 경우 leptokurtic라고 하며, 분포의 형태가 뾰족하다.

- 반대로 첨도가 3보다 낮으면 platykurtic이라고 하며, 분포의 형태가 완만한다.

■ 첨도 값이 클수록 분포의 중심 근처가 더 뾰족해지며, 이는 중심에 데이터가 더 집중되어 있다는 것을, 첨도 값이 낮을수록 분포의 중심 근처가 더 완만해지며, 이는 중심에 데이터가 덜 집중되어 있다는 것. 즉, 데이터가 흩어져 있다는 것을 의미한다.

2.2 적률생성함수와 확률분포

적률생성함수의 중요한 특성은 각각의 분포는 고유한 적률생성함수를 가진다는 것이다. 즉, 적률생성함수가 있고 확률분포를 출력하는 확률 함수가 있다면, 적률생성함수와 확률 함수는 일대일 대응이 된다. 간단히 말해, 하나의 적률생성함수가 하나의 확률분포로 대응된다.

■ 만약, 두 개의 확률변수가 같은 적률생성함수를 가지고 있다면, 두 개의 확률변수는 같은 확률분포를 가지고 있는 상태이다.

■ 확률분포로 확률 함수를 표현할 수 있지만, 적률생성함수로 확률 함수를 표현할 수도 있다.

그러므로, 어떤 확률변수에 대한 적률생성함수를 찾으면 확률분포를 결정할 수 있다.

■ 예를 들어 베르누이 분포, 이항분포, 포아송분포 등 각 분포는 자기만의 고유한 적률생성함수를 가지게 된다.

■ 만약, 서로 독립적인 \( X, Y \)라는 확률변수가 있다면, \( X \)의 적률생성함수와 \( Y \)의 적률생성함수를 구해서 서로 곱해주면 \( X + Y \)의 적률생성함수를 구할 수 있다.(= \( X + Y \)의 확률분포를 결정할 수 있다.) 이것으로 \( E(X+Y), Var(X+Y) \)도 구할 수 있다.

\( X \)와 \( Y \)가 독립이라면, \( X + Y \)의 적률생성함수는 \( M_{X+Y}(t) = E \left[ e^{t(X+Y)} \right] = E \left[ e^{tX} \cdot e^{tY} \right] = E \left[ e^{tX} \right] \cdot E \left[ e^{tY} \right] = M_X(t) \cdot M_Y(t) \)가 된다.

이렇게 서로 독립적인 확률변수 \( X \)와 \( Y \)의 mgf를 곱하면 \( X + Y \)의 mgf가 되는 것이다. 

정리하면, 하나의 확률분포는 하나의 유일한 적률생성함수를 가진다. 즉, 서로 다른 두 확률분포가 같은 적률생성함수를 가질 수 없다.

적률생성함수는 확률분포의 모든 모멘트(평균, 분산, 왜도, 첨도 등)를 생성하고, 이 모멘트들이 어떠한 확률분포의 특징을 완전히 특정지어 결정한다.

그러므로 두 확률분포가 동일한 적률생성함수를 갖는다면, 두 확률분포는 동일한 확률분포를 갖는다고 할 수 있다.

■ 예를 들어, 이항분포의 확률질량함수는 \( f(x) = \displaystyle\binom{n}{x} p^x (1-p)^{(n-x)}, x = 0, 1, \cdots, n \)이다. 이 확률함수를 이용해 적률생성함수를 만들면 다음과 같다.

이항분포의 적률생성함수 \( m(t) = E \left[ e^{tX} \right] = \displaystyle\sum_{x=0}^{n} e^{tx} \cdot f(x) = \sum_{x=0}^{n} e^{tx} \displaystyle\binom{n}{x} p^x (1 - p)^{(n-x)} = \displaystyle\sum_{x=0}^{n} \displaystyle\binom{n}{x} (p e^t)^x (1 - p)^{(n-x)} = (p e^t + 1 - p)^n \)

- \( \displaystyle\sum_{x=0}^{n} \displaystyle\binom{n}{x} (p e^t)^x (1 - p)^{(n-x)} = (p e^t + 1 - p)^n \)는 이항 정리 \( (a + b)^n = \displaystyle\sum_{r=0}^{n} \displaystyle\binom{n}{r} a^{n-r} b^r \)에 의해

- 이항분포의 적률생성함수를 다음과 같이 미분하면

- \( m'(t) = n p e^t (1 - p + p e^t)^{n-1} \)

- \( m''(t) = n p e^t (1 - p + p e^t)^{n-1} + n (n-1) (p e^t)^2 (1 - p + p e^t)^{n-2} \)

- \( E(X) = m'(0) = n p, \quad Var(X) = m''(0) - \left[ m'(0) \right]^2 = n p (1 - p) \)

■ 예를 들어, 기하분포의 확률질량함수는 \( f(x) = (1-p)^{x-1} p, x = 1, 2, 3 \cdots \)

■ 기하분포의 적률생성함수는 \( m(t) = E \left[ e^{tX} \right] = \displaystyle\sum_{x=1}^{\infty} e^{tx} (1 - p)^{x-1} \cdot p = p e^t \sum_{x=1}^{\infty} e^{t(x-1)} (1 - p)^{x-1} = p e^t \sum_{x=1}^{\infty} \left( (1 - p) e^t \right)^{x-1} = \dfrac{p e^t}{1 - (1 - p) e^t} \)

- \( m'(t) = \dfrac{p e^t}{(1 - (1 - p) e^t)^2} \)

- \( m''(t) = \dfrac{p e^t \left( 1 + (1 - p) e^t \right)}{(1 - (1 - p) e^t)^3} \)

- \( E[X] = m'(0) = \dfrac{1}{p}, \quad Var(X) = m''(0) - \left[ m'(0) \right]^2 = \dfrac{2 - p}{p^2} - \left( \dfrac{1}{p} \right)^2 = \dfrac{1 - p}{p^2} \)

 

'확률' 카테고리의 다른 글

연속형 확률분포 (2)  (0) 2025.02.14
연속형 확률분포 (1)  (0) 2025.02.14
이산형 확률분포  (0) 2025.02.14
확률변수의 기댓값과 분산, 공분산, 상관계수  (0) 2025.02.05
확률변수와 확률분포  (0) 2024.09.03