본문 바로가기

확률

확률변수의 기댓값과 분산, 공분산, 상관계수

1. 확률변수의 기댓값

1.1 기댓값의 개념

■ 확률변수의 기댓값은 '확률변수의 결과 값을 그 확률변수의 확률뷴포를 가중치로 평균한 값'으로 이산형 확률변수 \( X \)의 기댓값은 \(
\mu_X = E(X) = \sum\limits_{x} x f(x)
\), 연속형 확률변수 \( X \)의 기댓값은 \(
\mu_X = E(X) = \int_{-\infty}^{\infty} x \cdot f(x) \,dx
\)로 계산한다.
■ 기댓값은 '어떤 확률실험을 무한히 반복'했을 때, 얻을 수 있는 '확률변수 값들의 평균으로서 기대할 수 있는 값'을 의미한다.

■ 예를 들어 동전을 3번 던졌을 때, 뒷면이 나오는 횟수가 확률변수 \( X \)라고 하자. 이 확률변수의 기댓값은 

- 앞면을 H, 뒷면을 T라고 하면 S = { HHH, HTT, HHT, HTH, TTT, THH, THT, TTH }이므로 뒷면이 0번 \( = \dfrac{1}{8} \), 뒷면이 1번 \( = \dfrac{3}{8} \), 뒷면이 2번 \( = \dfrac{3}{8} \), 뒷면이 3번 \( = \dfrac{1}{8} \)이다.

그러므로 \(
E(X) = \sum\limits_{x} x f(x) 
= 0 \cdot f(0) + 1 \cdot f(1) + 2 \cdot f(2) + 3 \cdot f(3)
= \dfrac{3}{8} + \dfrac{6}{8} + \dfrac{3}{8}
= \dfrac{12}{8} = \dfrac{3}{2} = 1.5
\)

■ 예를 들어 동전을 3번 던졌을 때, 앞면이면 100원, 뒷면이면 200원이라고 할 때, 수익이 확률변수 \( X \)라면, 기댓값은 다음과 같다.

- 3번 모두 앞면: 총 금액은 \( 100 \times 3 = 300 \), 확률은\( \dfrac{1}{8} \)

- 2번 앞면 & 1번 뒷면: 총 금액은 \( 200 + 200 = 400 \), 확률은\( \dfrac{3}{8} \)

- 1번 앞면 & 2번 뒷면: 총 금액은 \( 100 + 400 = 500 \), 확률은\( \dfrac{3}{8} \)

- 3번 모두 뒷면: 총 금액은 \( 200 \times 3 = 600 \), 확률은\( \dfrac{1}{8} \) 이므로

- \(
E(X) = 300 \times \dfrac{1}{8} + 400 \times \dfrac{3}{8} + 500 \times \dfrac{3}{8} + 600 \times \dfrac{1}{8} = 450.
\) 즉, 동전을 3번 던졌을 때 앞면 100원, 뒷면 200원이면 기대할 수 있는 수익은 450원이다.

■ 동일하게 동전을 3번 던져 (앞면의 개수 - 뒷면의 개수)만큼 100원씩 주고 받을 때, 수익의 기댓값은 \(
E(X) = \dfrac{300 - 300 + 300 - 300}{8} = 0
\)이 된다.

■ \( E(X) = 0 \), 기댓값이 0이라는 의미는 확률변수의 평균적인 기대 결과가 중립적인 것으로, 확률변수 \( X \)가 수익이라면, 평균적인 손해도 이익도 없는 상태. 즉, 손실과 이익이 균형을 이루는 상태로 공정한 상황이라 볼 수 있다.

■ 만약, 기댓값이 마이너스면 수익을 기대하기 어렵고, 불공정한 상황이라고 볼 수 있다.

- 만약, \( N \)번 수행하여 기댓값 \( E(X) = -150 \)이면, 확률 실험을 \( N \)번 반복했을 때 평균적인 손실이 150이라는 것을 의미한다.

연속형 확률변수의 예로, 연속형 확률변수 \( X \)의 확률밀도함수 \( f(x) = \dfrac{3}{4} x^2, \quad 0 \leq x \leq 1
\)일 때, \(
E(X) = \int_{0}^{1} x \cdot f(x) \,dx 
= \int_{0}^{1} \dfrac{3}{4} x^3 \,dx
= \dfrac{3}{4} \cdot \dfrac{1}{4} 
= \dfrac{3}{16} \approx 0.1875 \)
이다.

1.2 확률변수 함수의 기댓값

■ 확률변수 \( X \)로 또 다른 확률변수 \( Y = g(X) \), 즉 확률변수 \( Y \)가 또 다른 확률변수 \( X \)의 함수일 때, 확률변수 \( Y \)의 기댓값은 확률변수 \( X \)의 확률분포를 사용한다.

- 이산형이라면, \( E(Z) = E\left[ g(X, Y) \right] = \sum\limits_{x} \sum\limits_{y} g(x, y) f(x, y) \)

- 연속형이라면, \( E(Z) = E\left[ g(X, Y) \right] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f(x, y) \,dx \,dy \)

■ 예를 들어, 확률변수 \( X \)가 동전을 2번 던져서 앞면이 나올 때의 수익일 때, 각 결고아ㅢ 수익을 제곱한 값의 기댓값은

- 각 결과의 수익을 제곱한 값은 확률변수로부터 또 다른 확률변수 \( Y = X^2 \)을 만든 것이다.

- 앞면이 0번 나온다면 \( X = 0 \), 확률은 \( \dfrac{1}{4} \), 

- 앞면이 1번 나온다면 \( X = 100 \), 확률은 \( \dfrac{1}{2} \), 

- 앞면이 2번 나온다면 \( X = 200 \), 확률은 \( \dfrac{1}{4} \)이다.

- \( X^2 \)이면 \( X = 0 \)일 때, \( X^2 = 0 \), \( X = 100 \)일 때 \( X^2 = 10000 \), \( X = 200 \)일 때 \( X^2 = 40000 \)이므로 

- \(
E(Y) = E(X^2) = \sum\limits_{x} x^{2} \cdot f(x) = 0 + \left( \dfrac{10000}{2} \right) + \left( \dfrac{40000}{4} \right) = 15,000
\)이다.

■ 예를 들어, 연속형 확률변수에서 확률변수 \( X \)의 확률밀도함수가 \( f(x) = \dfrac{3}{4} x^2, \quad 0 \leq x \leq 1 \)일 때, \( Y = (X + 1)^2 \)의 기댓값은

- \( E(Y) = E\left[ (x+1)^2 \right] = \int_{0}^{1} (x+1)^2 \cdot \frac{3}{4} x^2 \,dx = \frac{31}{40} \approx 0.775 \)

1.3 결합분포에서의 기댓값

■ 두 확률변수 \( X, Y \)의 결합확률분포가 \( f(x, y) \), 두 확률변수로부터 만들어진 새로운 확률변수 \( Z = g(X, Y) \)라고 했을 때, \( Z \)의 기댓값은 

- 이산형이라면, \(
E(Z) = E\left[ g(X, Y) \right] = \sum\limits_{x} \sum\limits_{y} g(x, y) \, f(x, y)
\)

- 연속형이라면, \( E(Z) = E\left[ g(x, Y) \right] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) \, f(x, y) \, dx \, dy \)

■ 예를 들어 주사위를 두 번 던지는 시행에서 눈의 최대치를 \( X \)라 하고, 눈의 최소치를 \( Y \)라고 할 때, \( Z = XY \)의 기댓값은

- 시그마 순서대로 계산하면 \( \sum\limits_{y} x y \, f(x, y) = x f(x,1) + 2x f(x,2) + 3x f(x,3) + 4x f(x,4) + 5x f(x,5) + 6x f(x,6) \Rightarrow \sum\limits_{x} \left( x f(x,1) + 2x f(x,2) + 3x f(x,3) + 4x f(x,4) + 5x f(x,5) + 6x f(x,6) \right) = \frac{1}{36} + \frac{2 \cdot 2}{36} + \frac{2 \cdot 3}{36} + \frac{2 \cdot 4}{36} + \frac{2 \cdot 5}{36} + \frac{2 \cdot 6}{36} + \cdots + \frac{36}{36} = 12.25 \) 

■ 연속형인 경우, 예를 들어 두 확률변수 \( X \)와 \( Y \)의 결합확률분포가 \( f(x, y) = \dfrac{1}{2} (x+3y), \quad 0 < x < 1, \quad 0 < y < 1 \)일 때, \( Z = XY \)의 기댓값은
- \( E(XY) = \int_{0}^{1} \int_{0}^{1} xy \cdot \frac{1}{2} (x+3y) \,dx \,dy = \frac{1}{2} \left( \frac{1}{6} + \frac{1}{2} \right) = \frac{1}{3} \)

1.4 기댓값의 특성

■ 기댓값은 확률변수에 상수를 곱하거나/나누거나, 더하거나/빼거나 하더라도 기댓값에 그대로 적용된다. 이를 '기댓값의 선형성'이라고 한다.

- (1) \( E(C) = C \quad ( C \text{는 상수} ) \)
- (2) \( E(X+Y) = E(X) + E(Y) \)
- (3) \( E(aX + b) = a E(X) + b \), \( a, b \)는 상수

-- \( E\left( c \cdot g(x) \right) = c \cdot E\left( g(x) \right) \), 이때 \( g(x) \)가 선형이라면, \( E\left[ c \cdot g(x) \right] = c \cdot E\left[ g(x) \right] = c \cdot g E(x) \) 가능

- (4) 함수 \( g_1(x), g_2(x), \dots, g_n(x) \)에 대해 \( E\left[ c_1 g_1(x) + c_2 g_2(x) + \dots + c_n g_n(x) \right] = c_1 E\left[ g_1(x) \right] + c_2 E\left[ g_2(x) \right] + \dots + c_n E\left[ g_n(x) \right] \)

- (5) 확률변수 \( X \)와 \( Y \)가 서로 독립이면, \( E(XY) = E(X)E(Y) \)

■ 기댓값은 더하기(이산형)나 적분(연속형)이기 때문에, 곱한 것은 그대로 곱해지고, 더한 것은 그대로 더해진다. 그러므로 (2), (3), (4)가 성립하는 것이다.

■ 확률변수 \( X \)와 \( Y \)가 서로 독립이면 결합확률분포는 주변확률분포의 곱이 되므로 \( X \)와 \( Y \)에 대해 따로 더하거나 적분할  수 있으므로 (5)가 성립한다.

■ 예를 들어, \( X = (x_1, x_2, \cdots, x_n), Y = (y_1, y_2, \cdots, y_n) \)일 때, 두 사건 \( X \)와 \( Y \)가 독립이라면, \( XY \)의 원소는 \( X \)의 원소 \( (x_1, x_2, \cdots, x_n) \)과 \( Y \)의 원소 \( (y_1, y_2, \cdots, y_n) \)의 모든 조합이다. (정확히는 두 원소의 곱에 대한 모든 조합)

ex) \( x_1 y_1, x_2 y_2, \cdots , x_n y_m \)으로 \( XY \)의 모든 원소의 개수는 \( nm \)개가 된다.이때, \( E(XY) = \dfrac{(x_1, \dots, x_n) (y_1, \dots, y_m)}{n m} = \dfrac{(x_1, \dots, x_n)}{n} \cdot \dfrac{(y_1, \dots, y_m)}{m} = E(X) E(Y) \)로 분리가 된다.

 

2. 분산(Variance)과 표준편차(Standard deviation)

2.1 분산의 개념

■ 확률변수의 분산은, 확률변수 \( X \)의 값들이 기댓값 \( E(X) \)로부터 얼마나 멀리 흩어져(떨어져) 있는지를 가늠하는 척도로, 확률변수 \( X \)가 \( E(X) \)로부터 떨어진 거리의 제곱의 기댓값(평균)이다.

■ 분산을 \( E \left[ (X - E[X])^2 \right] \) 또는 \( E[X] = \mu_X \)로 두고 \( E \left[ (X - \mu_X)^2 \right] \)로 표현하기도 한다.

분산이 크면, 확률변수의 값들이 기댓값으로부터 넓게 퍼져 있는 상태이다. 기댓값이 확률변수의 중심 위치를 나타내며, 분산은 확률변수의 각 값에서 기댓값을 뺀 값의 제곱의 기댓값이기 때문이다.

확률변수 \( X \)의 분산과 표준편차는 다음과 같이 정의된다. 그리고 '분산의 양의 제곱근'을 표준편차라고 한다.

\( \operatorname{Var}(X) = \sigma_X^2 = E \left[ (X - \mu_X)^2 \right], \quad \mu_X = E(X) \)

\( \sigma_X = \sqrt{\operatorname{Var}(X)} \)

■ 이때, 예를 들어 \( g(x) = x^2 \)이면 \( E[g(x)] = \sum\limits_{x} x^2 \cdot f(x) \)가 된다.

■ 이와 마찬가지로, 분산을 \( E \left[ (X - \mu_X)^2 \right] = \sum\limits_{x} (X - \mu_X)^2 \cdot f(x) \)로 나타낼 수 있다.

■ \( \operatorname{Var}(X) = E \left[ (X - \mu_X)^2 \right] = \sum\limits_{x} (x - \mu_X)^2 \cdot f(x) = \sum\limits_{x} (x^2 - 2\mu_X x + \mu_X^2) \cdot f(x) = \sum\limits_{x} x^2 \cdot f(x) - 2\mu_X \sum\limits_{x} x \cdot f(x) + \mu_X^2 \sum\limits_{x} f(x) \)

이때, \( \sum\limits_{x} x^2 \cdot f(x) = E[X^2], \quad \sum\limits_{x} x \cdot f(x) = \mu_X (= E[X]), \quad \sum\limits_{x} f(x) = 1 \)이므로 \( \operatorname{Var}(X) = E[X^2] - 2\mu_X \mu_X + \mu_X^2 = E[X^2] - \mu_X^2 \)가 된다.

■ 정리하면 \( \operatorname{Var}(X) = E[X^2] - \mu_X^2 \)

- 이때, \( E[X^2] \)은 확률변수 \( X \)의 제곱의 기댓값이고, \( \mu_X^2 \)는 확률변수 \( X \)의 기댓값의 제곱이므로 항상 \( E[X^2] \)이 \( \mu_X^2 \)보다 크거나 같다.

■ 확률변수 \( X \)의 확률분포함수를 \( f(x) \)라 할 때, \( X \)의 분산은 이산형(더하기)인 경우와 연속형(적분)인 경우 사용하는 식은 다음과 같다.

- (1) 이산형: \( \operatorname{Var}(X) = E \left[ (X - \mu_X)^2 \right] = \sum\limits_{x} (x - \mu_X)^2 \cdot f(x) \)

- (2) 연속형: \( \operatorname{Var}(X) = E \left[ (X - \mu_X)^2 \right] = \int_{-\infty}^{\infty} (x - \mu_X)^2 \cdot f(x) \, dx \)

■ 예를 들어, 주사위를 한 번 던지는 시행에서 나온 눈의 수를 확률변수 \( X \)라고 할 때, \( X \)의 기댓값과 분산은

- \( X = (1, 2, 3, 4, 5, 6) \)이므로 이산형 확률변수

- \( \mu_X = E(X) = \dfrac{1}{6} (1 + 2 + 3 + 4 + 5 + 6) = \dfrac{7}{2} \)

- \( \operatorname{Var}(X) = E(X^2) - \mu_X^2 
= \dfrac{1}{6} (1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2) - \left( \dfrac{7}{2} \right)^2 
= \dfrac{35}{12} \)

■ 예를 들어, 확률변수 \( X \)의 확률분포가 \( f(x) = 2e^{-2x}, 0 < x < \infty \)일 때, \( X \)의 분산은

- \( E(X) = \dfrac{1}{2} \), \( E(X^2) = \int_{0}^{\infty} x^2 \cdot 2 e^{-2x} \, dx = \dfrac{1}{2} \)이므로 \( \operatorname{Var}(X) = \dfrac{1}{2} - \left( \dfrac{1}{2} \right)^2 = \dfrac{1}{4} \)

■ 만약, 확률분포함수 \( f(x) \)를 갖는 확률변수 \( X \)로부터 새로운 확률변수 \( Y = g(X) \)를 만들면, \( Y \)의 분산은 \( \operatorname{Var} \left( g(X) \right) = E \left[ (Y - \mu_Y)^2 \right] = E \left[ Y^2 \right] - \mu_Y^2 \)가 된다.

■ 이때, \( Y \)의 분산은 이산형(더하기)인 경우와 연속형(적분)인 경우 사용하는 식은 다음과 같다.

- (1) 이산형: \( \operatorname{Var} \left( g(X) \right) = \sum\limits_{x} g(x)^2 f(x) - \left[ \sum\limits_{x} g(x) f(x) \right]^2 \)

- (2) 연속형: \( \operatorname{Var} \left( g(X) \right) = \int_{-\infty}^{\infty} g(x)^2 f(x) \,dx - \left[ \int_{0}^{\infty} g(x) f(x) \,dx \right]^2 \)

2.2 분산의 특성

■ 확률변수 \( X \)로부터 새로운 확률변수 \( Y = aX+b \)를 만들면, \( Y \)의 분산은 다음과 같이 더하거나 뺀 상수(\( b \))에는 영향을 받지 않고, 곱한 상수(\( a \))는 제곱이 된다.

\( Var(Y) = Var(aX + b) = a^2 Var(X) \), \( a, b \)는 상수

- 증명 \( Var(X) \), \( \text{Var}(Y) \)

\( Var(Y) = E \left[ (Y - \mu_Y)^2 \right] = E \left[ \left( (aX + b) - (a\mu_X + b) \right)^2 \right] = E \left[ \left( aX - a\mu_X \right)^2 \right] = a^2 E \left[ \left( X - \mu_X \right)^2 \right] = a^2 Var(X) \)

-- \( Y = ax+b, \mu_Y = a \mu_X + b \)

■ 예를 들어, 이산형 문제에서 확률변수 \( Y \)가 선형인 \( Y = 3X + 10 \)이라면 \( Var(Y) = 3^2 Var(X) \),

확률변수가 선형이아닌 \( Y = X^3 \)이라면 \( Var(Y) = E[ (X^3)^2] - E(X^3)^2 \)

■ 예를 들어, 확률변수 \( X \)의 확률분포함수 \( f(x) = 2e^{-2x}, 0 < x < \infty \)일 때, \( Y = 20X - 10 \)인 연속형 문제라면, \( Var(Y) = 20^2 Var(X) \)

\( Y = X^3 \)이라면, \( \int_{-\infty}^{\infty} (x^3)^2 \cdot 2e^{-2x} \,dx + \left[ \int_{0}^{\infty} x^3 \cdot 2e^{-2x} \,dx \right]^2 \)를 계산하면 된다.

 

3. 공분산(Covariance)

■ 공분산은 다음과 같이 2개의 확률변수의 선형 상관관계의 정도를 나타낸다. 즉, 확률변수 \( X \)와 \( Y \)의 값이 확률적으로 어떻게 결합되어 있는지를 나타내는 지표이다.

상관관계와 공분산

■ 두 확률변수의 공분산은 다음과 같이 계산된다.

\( Cov(X, Y) = \sigma_{XY} = E \left[ (X - \mu_X)(Y - \mu_Y) \right] \)

■ 위의 그림은 \( X \)와 \( Y \)의 산점도를 세로축은 \( x = \mu_X \), 가로축은 \( y = \mu_Y \)로하여 사분면으로 나눈 것이다.

- 강한 양의 상관관계인 경우 포인트들이 대부분 1사분면과 3사분면에 위치하며, 1사분면은 \( X - \mu_X > 0 \) & \( Y - \mu_Y > 0 \)이고, 3사분면은 \( X - \mu_X < 0 \) & \( Y - \mu_Y < 0 \)인 것을 볼 수 있다. 

- 따라서 \( (X - \mu_X)(Y - \mu_Y) > 0 \)이 되면서 공분산도 양의 값을 갖게 된다. 즉, 두 확률변수가 강한 양의 상관을 가지면 \( Cov(X, Y) > 0 \)이 된다.

- 반대로 강한 음의 상관관계인 경우 대부분의 포인트들이 2사분면과 4사분면에 위치하는 것을 볼 수 있다.

- 따라서 \( (X - \mu_X)(Y - \mu_Y) < 0 \)가 되므로 공분산은 음의 값을 갖게 된다. 즉, 두 확률변수가 강한 음의 상관을 가지면 \( Cov(X, Y) < 0 \)이 된다.

- \( Cov(X, Y) > 0 \)이면 두 확률변수는 강한 양의 상관관계, \( Cov(X, Y) < 0 \)이면 강한 음의 상관관계를 가지므로 \( Cov(X, Y) \)값이 0에 가까우면 가까울수록 두 확률변수의 상관관계가 미미한 것이고, \( Cov(X, Y) = 0 \)이면 두 확률변수 \( X, Y \)는 '상관관계 없음'으로 볼 수 있다.

■ 공분산의 식은 \( Cov(X, Y) = E \left[ (X - \mu_X)(Y - \mu_Y) \right] \)이다. 이 식을 전개하면 다음과 같다.

\( Cov(X, Y) = E \left[ (X - \mu_X)(Y - \mu_Y) \right] = E \left[ XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y \right] \)
\( = E [XY] - \mu_X E[Y] - \mu_Y E[X] + \mu_X \mu_Y \), \( E(X) = \mu_X, E(Y) = \mu_Y \)이므로

\( = E [XY] - \mu_X \mu_Y \)

- \( \mu_X \)와 \( \mu_Y \)는 계산된 기댓값. 즉, 상수

- cf) 저 식을 이용하면, \( Cov(X, X) = E[X^2] - \mu^2_X = Var(X) \). 즉, 같은 변수끼리의 공분산은 결국 분산이 된다.

■ 확률변수 \( X \)와 \( Y \)의 결합확률분포가 \( f(x, y) \)일 때, \( X \)와 \( Y \)의 공분산은 이산형과 연속형으로 구분하여 계산한다.

- (1) 이산형: \( Cov(X, Y) = \sum_x \sum_y xy \, f(x, y) - \mu_X \mu_Y \)

- (2) 연속형: \( Cov(X, Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xy \, f(x, y) \,dx \,dy - \mu_X \mu_Y \)

■ 예를 들어, 이산형 문제에서 \( X \)와 \( Y \)의 공분산은, 먼저 \( X \)와 \( Y \)의 주변확률분포 \( f_{\text{X}} (x), f_Y (y) \)값을 구한 뒤, \( E(X) \)와 \( E(Y) \) 그리고 \( E(XY) \)값을 구해서 \( Cov(X, Y) = E(XY) - E(X)E(Y) \)를 계산하면 된다.

■ 문제가 연속형이면, 결합확률분포 \( f(x,y) \)와 적분에 사용할 \( x \)와 \( y \)의 범위를 확인한 뒤, \( f_{\text{X}} (x), f_Y (y) \)를 구하고 \( E(X) \)와 \( E(Y) \) 그리고 \( E(XY) \)값을 구해서 \( Cov(X, Y) = E(XY) - E(X)E(Y) \)를 계산하면 된다.

 

4. 분산과 공분산의 특성

■ 분산과 공분산의 특성은 다음과 같다.

- (1) 확률변수 \( X \)와 \( Y \)가 서로 독립이면 \( Cov(X, Y) = 0 \)이다. (역은 성립하지 않는다.)

- 확률변수 \( X \)와 \( Y \)가 서로 독립이면 \( E(XY) = E(X)E(Y) \)이다.

- \( Cov(X, Y) = E(XY) - E(X)E(Y) \)이므로 \( Cov(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0 \)이 된다.

- (2) 확률변수 \( X \)와 \( Y \)가 서로 독립이면, 두 확률변수의 합의 분산 \( Var(X + Y) = Var(X) + Var(Y) \)이다.

- \( E(X) = \mu_X, E(Y) = \mu_Y, E(X + Y) = \mu_X + \mu_Y \)임을 이용한다.

- \( Var(X+Y) = E \left[ ((X+Y) - (\mu_X + \mu_Y))^2 \right] = E \left[ \left( (X - \mu_X) + (Y - \mu_Y) \right)^2 \right] = E \left[ (X - \mu_X)^2 + (Y - \mu_Y)^2 + 2(X - \mu_X)(Y - \mu_Y) \right] \) 
\( = E \left[ (X - \mu_X)^2 \right] + E \left[ (Y - \mu_Y)^2 \right] + 2E \left( XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y \right) \)

이때, \( E \left( XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y \right) \)는 \( E(XY) - \mu_XE(Y) - \mu_YE(X) + \mu_X \mu_Y = E(X)E(Y)  - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) = 0 \)이므로

\(
Var(X + Y) = E \left[ (X - \mu_X)^2 \right] + E \left[ (Y - \mu_Y)^2 \right] + 2E \left( XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y \right) = Var(X) + Var(Y) + 0 = Var(X) + Var(Y)
\)
- 위와 같은 방식을 이용하면, 두 확률변수가 독립인 경우 \( Var(aX + bY) = a^2 Var(X) + b^2 Var(Y) \)가 성립한다.

- (3) 동일한 방법으로, 두 확률변수 \( X \)와 \( Y \)가 독립이면, \( Var(X - Y) = Var(X) + Var(Y) \)

- (4) 서로 독립인 \( n \)개의 확률변수 \( X_1, X_2, \cdots, X_n \)에 대해 \( Var(a_1 X_1 + a_2 X_2 + \cdots + a_n X_n) = a^2_1 Var(X_1) + a^2_2 Var(X_2) + \cdots + a^2_n Var(X_n) \)

- (5) 확률변수 \( X \)와 \( Y \)가 '서로 독립이 아니면', \( Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) \)

- \( 2E \left( XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y \right) = 2 \left( E(XY) - E(X)E(Y) \right) = 2Cov(X, Y) \)이므로 (5)가 성립한다.

- \( E(X+Y) = E(X) + E(Y) \)와 \( E[ (X + Y)^2 ] = E(X^2) + 2E(XY) + E(Y^2) \)임을 이용하면,

- \(
\begin{aligned}
Var(X + Y) &= E[(X + Y)^2] - [E(X + Y)]^2 \\
           &= E(X^2) + E(Y^2) + 2E(XY) - [(E(X))^2 + (E(Y))^2 + 2E(X)E(Y)] \\
           &= E(X^2) - (E(X))^2 + E(Y^2) - (E(Y))^2 + 2[E(XY) - E(X)E(Y)] \\
           &= Var(X) + Var(Y) + 2Cov(X, Y)
\end{aligned}
\)

- (5) 동일한 방법으로 \( Var(X-Y) = Var(X) + Var(Y) - 2Cov(X, Y) \), \( Var(aX - bY) = a^2 Var(X) + b^2 Var(Y) - 2ab Cov(X, Y) \)

 

5. 상관계수(Correlation Coefficient)

■ 공분산은 +, - 부호에 따라 두 확률변수 간의 상관관계가 양인지 음인지 확인하는데 유용하다.

■ 하지만 공분산은 상관관계가 얼마나 강한지 나타낼 수 없다. 공분산은 '측정 단위'에 따라 그 값이 커질 수도, 작아질 수도 있기 때문이다.

■ '측정 단위와 무관하게' 상관관계의 강약을 나타내는 지표가 바로 상관계수이다.

■ 두 확률변수 \( X, Y \)에 대한 상관계수는 다음과 같이 계산된다.

\( Corr(X, Y) = \rho_{XY} = E \left[ \left( \frac{X - \mu_X}{\sigma_X} \right) \left( \frac{Y - \mu_Y}{\sigma_Y} \right) \right] = \dfrac{Cov(X, Y)}{\sqrt{Var(X)} \sqrt{Var(Y)}} \)

이렇게 상관계수는 공분산을 각 확률변수의 표준편차로 나눔으로써 측정 단위가 상쇄되어 측정 단위의 영향을 받지 않는다.

- 예를 들어 \( X \)의 단위가 cm이고 \( Y \)의 단위가 kg이면 분자인 공분산 \( Cov(X, Y) \)의 단위는 cm·kg가 된다. 

- 분모인 \( \sigma_X, \sigma_Y \)는 각각 \( X, Y \)의 단위와 같으므로 분모의 단위도 cm·kg가 된다. 그러므로 상관계수는 측정 단위가 상쇄되어 무단위 형태가 된다.

■ 그리고 상관계수는 \( -1 \leq \rho \leq 1 \)을 항상 만족한다. 상관계수가 1에 가까우면 '강한 양의 상관관계, -1에 가까우면 '강한 음의 상관관계' , 0에 가까울수록 상관관계가 미미하며, 0이면 '상관관계 없음'을 의미한다. 

- \( X = Y \)인 경우, \( Corr(X, Y) = \dfrac{Cov(X, X)}{\sqrt{Var(X)} \sqrt{Var(X)}} = \dfrac{Var(X)}{\sqrt{Var(X)} \sqrt{Var(X)}} = 1 \)

- \( Y = - X \)인 경우, \( Corr(X, Y) = \frac{-Var(X)}{\sqrt{Var(X)} \sqrt{Var(X)}} = -1 \)

■ 여기서 말하는 상관관계도 '선형' 상관관계이므로, 직선의 형태가 아닌 상관성에 대해서는 판단할 수 없다.

- 예를 들어 원형, 포물선 등의 직선이 아닌 형태에 대한 상관성을 판단하는 지표로 사용할 수 없다.

'확률' 카테고리의 다른 글

연속형 확률분포 (1)  (0) 2025.02.14
적률생성함수  (0) 2025.02.14
이산형 확률분포  (0) 2025.02.14
확률변수와 확률분포  (0) 2024.09.03
확률  (0) 2024.08.28