1. 적률(Moment)
■ 기댓값, 분산은 확률변수에 대한 의미있는 정보를 제공하지만, 이 정보만으로 분포를 결정할 수는 없다.
■ 추가로 \( E(X^3) \) 왜도(skewness), \( E(X^4) \) 첨도(kurtosis)를 얻을 수 있다면, 확률변수 \( X \)에 대해 더 잘 파악할 수 있다.
■ 확률변수 \( X \)에 대하여 \( E(X^k) \)를 \( k \)차 적률이라고 하며, \( \mu_k' \)으로 표기한다. 그리고 \( E((X-E[X])^k) \)를 \( X \)의 \( k \)차 중심 적률(central moment) 또는 \( k \)차 중심 모멘트라고 한다.
■ \( k \)차 적률은 다음과 같이 확률변수 \( X^k \)의 평균으로 정의하며, 이산형인지 연속형인지에 따라 더하거나 적분을 계산한다.
■ 이러한 적률(moment)은 확률이 어떻게 분포하는지 설명해준다.
■ 이 적률을 계산하기 위해 사용하는 것이 '적률생성함수(moment generating function, mgf)이다.
2. 적률생성함수
■ 확률변수 \( X \)의 적률생성함수 \( m(t) \)는 \( m(t) = E[e^{tX}] \)이다.
■ 적률생성함수도 마찬가지로 이산형인지 연속형인지에 따라 다음과 같이 더하거나 적분을 계산한다.
- \( m(t) = E[e^{tX}] \)는 \( t \)에 대한 함수이다.
\(
m(t) = E(e^{tX}) =
\begin{cases}
\displaystyle \sum_{x} e^{t x} p(x), & \text{if } X \text{ is discrete with mass } p(x) \\[10pt]
\displaystyle \int_{-\infty}^{\infty} e^{t x} f(x) \,dx, & \text{if } X \text{ is continuous with density } f(x)
\end{cases}
\)
■ 급수 전개한 적률생성함수를 '미분'하여 모든 차수의 적률을 얻을 수 있다.
■ 테일러 전개에 의해 \(
e^{tx} = 1 + tx + \dfrac{t x^2}{2!} + \dfrac{t x^3}{3!} + \cdots + \dfrac{t x^n}{n!} + \cdots
\)
■ 양변에 기댓값을 씌우면
\(
E \left[ e^{tX} \right] = E \left[ 1 + tX + \dfrac{(tX)^2}{2!} + \dfrac{(tX)^3}{3!} + \cdots + \dfrac{(tX)^n}{n!} + \cdots \right]
\)
\(
= 1 + t E(X) + \dfrac{t^2}{2!} E(X^2) + \dfrac{t^3}{3!} E(X^3) + \cdots + \dfrac{t^n}{n!} E(X^n) + \cdots
\)
\(
= 1 + t \mu'_1 + \dfrac{t^2}{2!} \mu'_2 + \dfrac{t^3}{3!} \mu'_3 + \cdots + \dfrac{t^n}{n!} \mu'_n + \cdots = m(t)
\)
■ 급수로 전개한 적률생성함수 \( m(t) \)에 대해 1차 미분을 하면 \( m'(t) = \mu'_1 + \mu'_2 t + \mu'_3 \dfrac{t^2}{2} + \cdots \)
■ 급수로 전개한 적률생성함수 \( m(t) \)에 대해 2차 미분을 하면 \( m'(t) = \mu'_2 + \mu'_3 t + \mu'_4 \dfrac{t^4}{2!} + \cdots \)
■ 이렇게 적률생성함수 \( m(t) \)를 \( k \)번 미분한 후 \( t = 0 \)을 대입하면, \( k \)차 적률 \( \mu_k' \)를 얻는다.
- \( m'(0) = \mu'_1 = E(X) \)는 1차 모멘트(적률)
- \( m''(0) = \mu'_2 = E(X^2) \)는 2차 모멘트(적률)
- \( m^{(k)}(0) = \mu'_k = E(X^k) \)는 \( k \)차 모멘트(적률)
2.1 평균, 분산, 왜도, 첨도
■ 지금까지의 적률은 원점에 대한 적률이다. 원점에 대한 \( k \)차 적률 \( \mu_k' \)는 다음과 같이 정의된다.
\(
\mu'_k = E\left[ (X - 0)^k \right]
\)
■ 0 대신 평균 \( \mu \)를 넣은 것을 \( k \)차 중심적률 \( \mu_k \)라고 한다.
\(
\mu_k = E \left( (X - E[X])^k \right)
\)
■ 그리고 \( k \)차 중심적률을 표준펀차의 \( k \)제곱으로 나눈 것을 \( k \)차 표준화 적률 \( \tilde{\mu}_k \)라고 한다.
\(
\widetilde{\mu}_k = \dfrac{\mu_k}{\sigma^k} = E \left[ \left( \dfrac{X - E[X]}{\sigma} \right)^k \right]
\), 여기서 \( \sigma \)는 상수이므로
\(
E \left[ \left( \dfrac{X - E[X]}{\sigma} \right)^k \right] = \dfrac{E \left[ (X - E[X])^k \right]}{\sigma^k}
\)
■ 적률생성함수를 \( t = 0 \)에서 한 번 미분한 것을 1차 적률이라고 한다.
■ 1차 적률 \( \mu_1 \)이 의미하는 것은 확률변수의 평균(기댓값) \( E(X) \)이다.
■ 2차 적률은 확률변수의 분산과 관계가 있다. \( E(X^2) \)이기 때문이다. 분산 \( Var(X) = E(X^2) - E(X)^2 \) = '2차적률 - 1차 적률의 제곱'으로 구할 수 있다.
■ 분산은 2차 중심적률을 사용하여 간단히 구할 수도 있다. \( \mu_2 = E \left[ (X - E[X])^2 \right] = Var(X) \)
■ 3차 적률은 확률분포의 왜도(비대칭도)를 측정한다. 3차 표준화 적률 \( \widetilde{\mu_3} = \dfrac{E[(X - E[X])^3]}{\sigma^3} \)이 왜도이다.
■ 왜도는 다음과 같이 비대칭의 정도를 나타내는 지표이다. 비대칭은 분포의 기울어짐으로 인해 생기는 것이기 때문에, 데이터가 '어느 쪽으로 몰려있는지' 판단할 수 있다.
- 정규분포처럼 평균을 중심으로 완전 대칭이면, 왜도가 없는 것이기 때문에 왜도 = 0 이된다.
- 왼쪽 그림처럼 데이터 분포의 꼬리가 오른쪽으로 긴 꼬리를 갖는 형태가 되면, 이때의 왜도는 '양수'이며 '오른쪽 치우침(positive skewness)'이라고 한다.
- 오른족 그림처럼 데이터 분포의 꼬리가 왼쪽으로 긴 꼬리를 갖는 형태가 되면, 이때의 왜도는 '음수'이며 '완쪽으로 치우침(negative skewness)'이라고 한다.
■ 4차 적률은 확률분포의 첨도(뾰족함)를 측정한다. 4차 표준화 적률 \( \widetilde{\mu_4} = \dfrac{E[(X - E[X])^4]}{\sigma^4} \)이 첨도이다.
■ 첨도를 통해 다음 그림과 같이 데이터가 '얼마나 몰려있는지' 판단할 수 있다.
- 정규분포의 경우 첨도 = 3
- 양의 첨도를 가지며 첨도가 3을 넘어가는 경우 leptokurtic라고 하며, 분포의 형태가 뾰족하다.
- 반대로 첨도가 3보다 낮으면 platykurtic이라고 하며, 분포의 형태가 완만한다.
■ 첨도 값이 클수록 분포의 중심 근처가 더 뾰족해지며, 이는 중심에 데이터가 더 집중되어 있다는 것을, 첨도 값이 낮을수록 분포의 중심 근처가 더 완만해지며, 이는 중심에 데이터가 덜 집중되어 있다는 것. 즉, 데이터가 흩어져 있다는 것을 의미한다.
2.2 적률생성함수와 확률분포
■ 적률생성함수의 중요한 특성은 각각의 분포는 고유한 적률생성함수를 가진다는 것이다. 즉, 적률생성함수가 있고 확률분포를 출력하는 확률 함수가 있다면, 적률생성함수와 확률 함수는 일대일 대응이 된다. 간단히 말해, 하나의 적률생성함수가 하나의 확률분포로 대응된다.
■ 만약, 두 개의 확률변수가 같은 적률생성함수를 가지고 있다면, 두 개의 확률변수는 같은 확률분포를 가지고 있는 상태이다.
■ 확률분포로 확률 함수를 표현할 수 있지만, 적률생성함수로 확률 함수를 표현할 수도 있다.
■ 그러므로, 어떤 확률변수에 대한 적률생성함수를 찾으면 확률분포를 결정할 수 있다.
■ 예를 들어 베르누이 분포, 이항분포, 포아송분포 등 각 분포는 자기만의 고유한 적률생성함수를 가지게 된다.
■ 만약, 서로 독립적인 \( X, Y \)라는 확률변수가 있다면, \( X \)의 적률생성함수와 \( Y \)의 적률생성함수를 구해서 서로 곱해주면 \( X + Y \)의 적률생성함수를 구할 수 있다.(= \( X + Y \)의 확률분포를 결정할 수 있다.) 이것으로 \( E(X+Y), Var(X+Y) \)도 구할 수 있다.
■ \( X \)와 \( Y \)가 독립이라면, \( X + Y \)의 적률생성함수는 \( M_{X+Y}(t) = E \left[ e^{t(X+Y)} \right] = E \left[ e^{tX} \cdot e^{tY} \right] = E \left[ e^{tX} \right] \cdot E \left[ e^{tY} \right] = M_X(t) \cdot M_Y(t) \)가 된다.
이렇게 서로 독립적인 확률변수 \( X \)와 \( Y \)의 mgf를 곱하면 \( X + Y \)의 mgf가 되는 것이다.
■ 정리하면, 하나의 확률분포는 하나의 유일한 적률생성함수를 가진다. 즉, 서로 다른 두 확률분포가 같은 적률생성함수를 가질 수 없다.
■ 적률생성함수는 확률분포의 모든 모멘트(평균, 분산, 왜도, 첨도 등)를 생성하고, 이 모멘트들이 어떠한 확률분포의 특징을 완전히 특정지어 결정한다.
■ 그러므로 두 확률분포가 동일한 적률생성함수를 갖는다면, 두 확률분포는 동일한 확률분포를 갖는다고 할 수 있다.
■ 예를 들어, 이항분포의 확률질량함수는 \( f(x) = \displaystyle\binom{n}{x} p^x (1-p)^{(n-x)}, x = 0, 1, \cdots, n \)이다. 이 확률함수를 이용해 적률생성함수를 만들면 다음과 같다.
이항분포의 적률생성함수 \( m(t) = E \left[ e^{tX} \right] = \displaystyle\sum_{x=0}^{n} e^{tx} \cdot f(x) = \sum_{x=0}^{n} e^{tx} \displaystyle\binom{n}{x} p^x (1 - p)^{(n-x)} = \displaystyle\sum_{x=0}^{n} \displaystyle\binom{n}{x} (p e^t)^x (1 - p)^{(n-x)} = (p e^t + 1 - p)^n \)
- \( \displaystyle\sum_{x=0}^{n} \displaystyle\binom{n}{x} (p e^t)^x (1 - p)^{(n-x)} = (p e^t + 1 - p)^n \)는 이항 정리 \( (a + b)^n = \displaystyle\sum_{r=0}^{n} \displaystyle\binom{n}{r} a^{n-r} b^r \)에 의해
- 이항분포의 적률생성함수를 다음과 같이 미분하면
- \( m'(t) = n p e^t (1 - p + p e^t)^{n-1} \)
- \( m''(t) = n p e^t (1 - p + p e^t)^{n-1} + n (n-1) (p e^t)^2 (1 - p + p e^t)^{n-2} \)
- \( E(X) = m'(0) = n p, \quad Var(X) = m''(0) - \left[ m'(0) \right]^2 = n p (1 - p) \)
■ 예를 들어, 기하분포의 확률질량함수는 \( f(x) = (1-p)^{x-1} p, x = 1, 2, 3 \cdots \)
■ 기하분포의 적률생성함수는 \( m(t) = E \left[ e^{tX} \right] = \displaystyle\sum_{x=1}^{\infty} e^{tx} (1 - p)^{x-1} \cdot p = p e^t \sum_{x=1}^{\infty} e^{t(x-1)} (1 - p)^{x-1} = p e^t \sum_{x=1}^{\infty} \left( (1 - p) e^t \right)^{x-1} = \dfrac{p e^t}{1 - (1 - p) e^t} \)
- \( m'(t) = \dfrac{p e^t}{(1 - (1 - p) e^t)^2} \)
- \( m''(t) = \dfrac{p e^t \left( 1 + (1 - p) e^t \right)}{(1 - (1 - p) e^t)^3} \)
- \( E[X] = m'(0) = \dfrac{1}{p}, \quad Var(X) = m''(0) - \left[ m'(0) \right]^2 = \dfrac{2 - p}{p^2} - \left( \dfrac{1}{p} \right)^2 = \dfrac{1 - p}{p^2} \)
'확률' 카테고리의 다른 글
연속형 확률분포 (2) (0) | 2025.02.14 |
---|---|
연속형 확률분포 (1) (0) | 2025.02.14 |
이산형 확률분포 (0) | 2025.02.14 |
확률변수의 기댓값과 분산, 공분산, 상관계수 (0) | 2025.02.05 |
확률변수와 확률분포 (0) | 2024.09.03 |