1. 적률(Moment)
■ 기댓값, 분산은 확률변수에 대한 의미있는 정보를 제공하지만, 이 정보만으로 분포를 결정할 수는 없다.
■ 추가로 E(X3) 왜도(skewness), E(X4) 첨도(kurtosis)를 얻을 수 있다면, 확률변수 X에 대해 더 잘 파악할 수 있다.
■ 확률변수 X에 대하여 E(Xk)를 k차 적률이라고 하며, μ′k으로 표기한다. 그리고 E((X−E[X])k)를 X의 k차 중심 적률(central moment) 또는 k차 중심 모멘트라고 한다.
■ k차 적률은 다음과 같이 확률변수 Xk의 평균으로 정의하며, 이산형인지 연속형인지에 따라 더하거나 적분을 계산한다.

■ 이러한 적률(moment)은 확률이 어떻게 분포하는지 설명해준다.
■ 이 적률을 계산하기 위해 사용하는 것이 '적률생성함수(moment generating function, mgf)이다.
2. 적률생성함수
■ 확률변수 X의 적률생성함수 m(t)는 m(t)=E[etX]이다.
■ 적률생성함수도 마찬가지로 이산형인지 연속형인지에 따라 다음과 같이 더하거나 적분을 계산한다.
- m(t)=E[etX]는 t에 대한 함수이다.
m(t)=E(etX)={∑xetxp(x),if X is discrete with mass p(x)∫∞−∞etxf(x)dx,if X is continuous with density f(x)
■ 급수 전개한 적률생성함수를 '미분'하여 모든 차수의 적률을 얻을 수 있다.
■ 테일러 전개에 의해 etx=1+tx+tx22!+tx33!+⋯+txnn!+⋯
■ 양변에 기댓값을 씌우면
E[etX]=E[1+tX+(tX)22!+(tX)33!+⋯+(tX)nn!+⋯]
=1+tE(X)+t22!E(X2)+t33!E(X3)+⋯+tnn!E(Xn)+⋯
=1+tμ′1+t22!μ′2+t33!μ′3+⋯+tnn!μ′n+⋯=m(t)
■ 급수로 전개한 적률생성함수 m(t)에 대해 1차 미분을 하면 m′(t)=μ′1+μ′2t+μ′3t22+⋯
■ 급수로 전개한 적률생성함수 m(t)에 대해 2차 미분을 하면 m′(t)=μ′2+μ′3t+μ′4t42!+⋯
■ 이렇게 적률생성함수 m(t)를 k번 미분한 후 t=0을 대입하면, k차 적률 μ′k를 얻는다.
- m′(0)=μ′1=E(X)는 1차 모멘트(적률)
- m″는 2차 모멘트(적률)
- m^{(k)}(0) = \mu'_k = E(X^k) 는 k 차 모멘트(적률)
2.1 평균, 분산, 왜도, 첨도
■ 지금까지의 적률은 원점에 대한 적률이다. 원점에 대한 k 차 적률 \mu_k' 는 다음과 같이 정의된다.
\mu'_k = E\left[ (X - 0)^k \right]
■ 0 대신 평균 \mu 를 넣은 것을 k 차 중심적률 \mu_k 라고 한다.
\mu_k = E \left( (X - E[X])^k \right)
■ 그리고 k 차 중심적률을 표준펀차의 k 제곱으로 나눈 것을 k 차 표준화 적률 \tilde{\mu}_k 라고 한다.
\widetilde{\mu}_k = \dfrac{\mu_k}{\sigma^k} = E \left[ \left( \dfrac{X - E[X]}{\sigma} \right)^k \right] , 여기서 \sigma 는 상수이므로
E \left[ \left( \dfrac{X - E[X]}{\sigma} \right)^k \right] = \dfrac{E \left[ (X - E[X])^k \right]}{\sigma^k}
■ 적률생성함수를 t = 0 에서 한 번 미분한 것을 1차 적률이라고 한다.
■ 1차 적률 \mu_1 이 의미하는 것은 확률변수의 평균(기댓값) E(X) 이다.
■ 2차 적률은 확률변수의 분산과 관계가 있다. E(X^2) 이기 때문이다. 분산 Var(X) = E(X^2) - E(X)^2 = '2차적률 - 1차 적률의 제곱'으로 구할 수 있다.
■ 분산은 2차 중심적률을 사용하여 간단히 구할 수도 있다. \mu_2 = E \left[ (X - E[X])^2 \right] = Var(X)
■ 3차 적률은 확률분포의 왜도(비대칭도)를 측정한다. 3차 표준화 적률 \widetilde{\mu_3} = \dfrac{E[(X - E[X])^3]}{\sigma^3} 이 왜도이다.
■ 왜도는 다음과 같이 비대칭의 정도를 나타내는 지표이다. 비대칭은 분포의 기울어짐으로 인해 생기는 것이기 때문에, 데이터가 '어느 쪽으로 몰려있는지' 판단할 수 있다.

- 정규분포처럼 평균을 중심으로 완전 대칭이면, 왜도가 없는 것이기 때문에 왜도 = 0 이된다.
- 왼쪽 그림처럼 데이터 분포의 꼬리가 오른쪽으로 긴 꼬리를 갖는 형태가 되면, 이때의 왜도는 '양수'이며 '오른쪽 치우침(positive skewness)'이라고 한다.
- 오른족 그림처럼 데이터 분포의 꼬리가 왼쪽으로 긴 꼬리를 갖는 형태가 되면, 이때의 왜도는 '음수'이며 '완쪽으로 치우침(negative skewness)'이라고 한다.
■ 4차 적률은 확률분포의 첨도(뾰족함)를 측정한다. 4차 표준화 적률 \widetilde{\mu_4} = \dfrac{E[(X - E[X])^4]}{\sigma^4} 이 첨도이다.
■ 첨도를 통해 다음 그림과 같이 데이터가 '얼마나 몰려있는지' 판단할 수 있다.

- 정규분포의 경우 첨도 = 3
- 양의 첨도를 가지며 첨도가 3을 넘어가는 경우 leptokurtic라고 하며, 분포의 형태가 뾰족하다.
- 반대로 첨도가 3보다 낮으면 platykurtic이라고 하며, 분포의 형태가 완만한다.
■ 첨도 값이 클수록 분포의 중심 근처가 더 뾰족해지며, 이는 중심에 데이터가 더 집중되어 있다는 것을, 첨도 값이 낮을수록 분포의 중심 근처가 더 완만해지며, 이는 중심에 데이터가 덜 집중되어 있다는 것. 즉, 데이터가 흩어져 있다는 것을 의미한다.
2.2 적률생성함수와 확률분포
■ 적률생성함수의 중요한 특성은 각각의 분포는 고유한 적률생성함수를 가진다는 것이다. 즉, 적률생성함수가 있고 확률분포를 출력하는 확률 함수가 있다면, 적률생성함수와 확률 함수는 일대일 대응이 된다. 간단히 말해, 하나의 적률생성함수가 하나의 확률분포로 대응된다.
■ 만약, 두 개의 확률변수가 같은 적률생성함수를 가지고 있다면, 두 개의 확률변수는 같은 확률분포를 가지고 있는 상태이다.
■ 확률분포로 확률 함수를 표현할 수 있지만, 적률생성함수로 확률 함수를 표현할 수도 있다.
■ 그러므로, 어떤 확률변수에 대한 적률생성함수를 찾으면 확률분포를 결정할 수 있다.
■ 예를 들어 베르누이 분포, 이항분포, 포아송분포 등 각 분포는 자기만의 고유한 적률생성함수를 가지게 된다.
■ 만약, 서로 독립적인 X, Y 라는 확률변수가 있다면, X 의 적률생성함수와 Y 의 적률생성함수를 구해서 서로 곱해주면 X + Y 의 적률생성함수를 구할 수 있다.(= X + Y 의 확률분포를 결정할 수 있다.) 이것으로 E(X+Y), Var(X+Y) 도 구할 수 있다.
■ X 와 Y 가 독립이라면, X + Y 의 적률생성함수는 M_{X+Y}(t) = E \left[ e^{t(X+Y)} \right] = E \left[ e^{tX} \cdot e^{tY} \right] = E \left[ e^{tX} \right] \cdot E \left[ e^{tY} \right] = M_X(t) \cdot M_Y(t) 가 된다.
이렇게 서로 독립적인 확률변수 X 와 Y 의 mgf를 곱하면 X + Y 의 mgf가 되는 것이다.
■ 정리하면, 하나의 확률분포는 하나의 유일한 적률생성함수를 가진다. 즉, 서로 다른 두 확률분포가 같은 적률생성함수를 가질 수 없다.
■ 적률생성함수는 확률분포의 모든 모멘트(평균, 분산, 왜도, 첨도 등)를 생성하고, 이 모멘트들이 어떠한 확률분포의 특징을 완전히 특정지어 결정한다.
■ 그러므로 두 확률분포가 동일한 적률생성함수를 갖는다면, 두 확률분포는 동일한 확률분포를 갖는다고 할 수 있다.
■ 예를 들어, 이항분포의 확률질량함수는 f(x) = \displaystyle\binom{n}{x} p^x (1-p)^{(n-x)}, x = 0, 1, \cdots, n 이다. 이 확률함수를 이용해 적률생성함수를 만들면 다음과 같다.
이항분포의 적률생성함수 m(t) = E \left[ e^{tX} \right] = \displaystyle\sum_{x=0}^{n} e^{tx} \cdot f(x) = \sum_{x=0}^{n} e^{tx} \displaystyle\binom{n}{x} p^x (1 - p)^{(n-x)} = \displaystyle\sum_{x=0}^{n} \displaystyle\binom{n}{x} (p e^t)^x (1 - p)^{(n-x)} = (p e^t + 1 - p)^n
- \displaystyle\sum_{x=0}^{n} \displaystyle\binom{n}{x} (p e^t)^x (1 - p)^{(n-x)} = (p e^t + 1 - p)^n 는 이항 정리 (a + b)^n = \displaystyle\sum_{r=0}^{n} \displaystyle\binom{n}{r} a^{n-r} b^r 에 의해
- 이항분포의 적률생성함수를 다음과 같이 미분하면
- m'(t) = n p e^t (1 - p + p e^t)^{n-1}
- m''(t) = n p e^t (1 - p + p e^t)^{n-1} + n (n-1) (p e^t)^2 (1 - p + p e^t)^{n-2}
- E(X) = m'(0) = n p, \quad Var(X) = m''(0) - \left[ m'(0) \right]^2 = n p (1 - p)
■ 예를 들어, 기하분포의 확률질량함수는 f(x) = (1-p)^{x-1} p, x = 1, 2, 3 \cdots
■ 기하분포의 적률생성함수는 m(t) = E \left[ e^{tX} \right] = \displaystyle\sum_{x=1}^{\infty} e^{tx} (1 - p)^{x-1} \cdot p = p e^t \sum_{x=1}^{\infty} e^{t(x-1)} (1 - p)^{x-1} = p e^t \sum_{x=1}^{\infty} \left( (1 - p) e^t \right)^{x-1} = \dfrac{p e^t}{1 - (1 - p) e^t}
- m'(t) = \dfrac{p e^t}{(1 - (1 - p) e^t)^2}
- m''(t) = \dfrac{p e^t \left( 1 + (1 - p) e^t \right)}{(1 - (1 - p) e^t)^3}
- E[X] = m'(0) = \dfrac{1}{p}, \quad Var(X) = m''(0) - \left[ m'(0) \right]^2 = \dfrac{2 - p}{p^2} - \left( \dfrac{1}{p} \right)^2 = \dfrac{1 - p}{p^2}
'확률' 카테고리의 다른 글
연속형 확률분포 (2) (0) | 2025.02.14 |
---|---|
연속형 확률분포 (1) (0) | 2025.02.14 |
이산형 확률분포 (0) | 2025.02.14 |
확률변수의 기댓값과 분산, 공분산, 상관계수 (0) | 2025.02.05 |
확률변수와 확률분포 (0) | 2024.09.03 |