Loading [MathJax]/jax/output/CommonHTML/jax.js
본문 바로가기

확률

확률변수의 기댓값과 분산, 공분산, 상관계수

1. 확률변수의 기댓값

1.1 기댓값의 개념

■ 확률변수의 기댓값은 '확률변수의 결과 값을 그 확률변수의 확률뷴포를 가중치로 평균한 값'으로 이산형 확률변수 X의 기댓값은 μX=E(X)=xxf(x), 연속형 확률변수 X의 기댓값은 μX=E(X)=xf(x)dx로 계산한다.
■ 기댓값은 '어떤 확률실험을 무한히 반복'했을 때, 얻을 수 있는 '확률변수 값들의 평균으로서 기대할 수 있는 값'을 의미한다.

■ 예를 들어 동전을 3번 던졌을 때, 뒷면이 나오는 횟수가 확률변수 X라고 하자. 이 확률변수의 기댓값은 

- 앞면을 H, 뒷면을 T라고 하면 S = { HHH, HTT, HHT, HTH, TTT, THH, THT, TTH }이므로 뒷면이 0번 =18, 뒷면이 1번 =38, 뒷면이 2번 =38, 뒷면이 3번 =18이다.

그러므로 E(X)=xxf(x)=0f(0)+1f(1)+2f(2)+3f(3)=38+68+38=128=32=1.5

■ 예를 들어 동전을 3번 던졌을 때, 앞면이면 100원, 뒷면이면 200원이라고 할 때, 수익이 확률변수 X라면, 기댓값은 다음과 같다.

- 3번 모두 앞면: 총 금액은 100×3=300, 확률은18

- 2번 앞면 & 1번 뒷면: 총 금액은 200+200=400, 확률은38

- 1번 앞면 & 2번 뒷면: 총 금액은 100+400=500, 확률은38

- 3번 모두 뒷면: 총 금액은 200×3=600, 확률은18 이므로

- E(X)=300×18+400×38+500×38+600×18=450. 즉, 동전을 3번 던졌을 때 앞면 100원, 뒷면 200원이면 기대할 수 있는 수익은 450원이다.

■ 동일하게 동전을 3번 던져 (앞면의 개수 - 뒷면의 개수)만큼 100원씩 주고 받을 때, 수익의 기댓값은 E(X)=300300+3003008=0이 된다.

E(X)=0, 기댓값이 0이라는 의미는 확률변수의 평균적인 기대 결과가 중립적인 것으로, 확률변수 X가 수익이라면, 평균적인 손해도 이익도 없는 상태. 즉, 손실과 이익이 균형을 이루는 상태로 공정한 상황이라 볼 수 있다.

■ 만약, 기댓값이 마이너스면 수익을 기대하기 어렵고, 불공정한 상황이라고 볼 수 있다.

- 만약, N번 수행하여 기댓값 E(X)=150이면, 확률 실험을 N번 반복했을 때 평균적인 손실이 150이라는 것을 의미한다.

연속형 확률변수의 예로, 연속형 확률변수 X의 확률밀도함수 f(x)=34x2,0x1일 때, E(X)=10xf(x)dx=1034x3dx=3414=3160.1875이다.

1.2 확률변수 함수의 기댓값

■ 확률변수 X로 또 다른 확률변수 Y=g(X), 즉 확률변수 Y가 또 다른 확률변수 X의 함수일 때, 확률변수 Y의 기댓값은 확률변수 X의 확률분포를 사용한다.

- 이산형이라면, E(Z)=E[g(X,Y)]=xyg(x,y)f(x,y)

- 연속형이라면, E(Z)=E[g(X,Y)]=g(x,y)f(x,y)dxdy

■ 예를 들어, 확률변수 X가 동전을 2번 던져서 앞면이 나올 때의 수익일 때, 각 결고아ㅢ 수익을 제곱한 값의 기댓값은

- 각 결과의 수익을 제곱한 값은 확률변수로부터 또 다른 확률변수 Y=X2을 만든 것이다.

- 앞면이 0번 나온다면 X=0, 확률은 14

- 앞면이 1번 나온다면 X=100, 확률은 12

- 앞면이 2번 나온다면 X=200, 확률은 14이다.

- X2이면 X=0일 때, X2=0, X=100일 때 X2=10000, X=200일 때 X2=40000이므로 

- E(Y)=E(X2)=xx2f(x)=0+(100002)+(400004)=15,000이다.

■ 예를 들어, 연속형 확률변수에서 확률변수 X의 확률밀도함수가 f(x)=34x2,0x1일 때, Y=(X+1)2의 기댓값은

- E(Y)=E[(x+1)2]=10(x+1)234x2dx=31400.775

1.3 결합분포에서의 기댓값

■ 두 확률변수 X,Y의 결합확률분포가 f(x,y), 두 확률변수로부터 만들어진 새로운 확률변수 Z=g(X,Y)라고 했을 때, Z의 기댓값은 

- 이산형이라면, E(Z)=E[g(X,Y)]=xyg(x,y)f(x,y)

- 연속형이라면, E(Z)=E[g(x,Y)]=g(x,y)f(x,y)dxdy

■ 예를 들어 주사위를 두 번 던지는 시행에서 눈의 최대치를 X라 하고, 눈의 최소치를 Y라고 할 때, Z=XY의 기댓값은

- 시그마 순서대로 계산하면 yxyf(x,y)=xf(x,1)+2xf(x,2)+3xf(x,3)+4xf(x,4)+5xf(x,5)+6xf(x,6)x(xf(x,1)+2xf(x,2)+3xf(x,3)+4xf(x,4)+5xf(x,5)+6xf(x,6))=136+2236+2336+2436+2536+2636++3636=12.25 

■ 연속형인 경우, 예를 들어 두 확률변수 XY의 결합확률분포가 f(x,y)=12(x+3y),0<x<1,0<y<1일 때, Z=XY의 기댓값은
- E(XY)=1010xy12(x+3y)dxdy=12(16+12)=13

1.4 기댓값의 특성

■ 기댓값은 확률변수에 상수를 곱하거나/나누거나, 더하거나/빼거나 하더라도 기댓값에 그대로 적용된다. 이를 '기댓값의 선형성'이라고 한다.

- (1) E(C)=C(C는 상수)
- (2) E(X+Y)=E(X)+E(Y)
- (3) E(aX+b)=aE(X)+b, a,b는 상수

-- E(cg(x))=cE(g(x)), 이때 g(x)가 선형이라면, E[cg(x)]=cE[g(x)]=cgE(x) 가능

- (4) 함수 g1(x),g2(x),,gn(x)에 대해 E[c1g1(x)+c2g2(x)++cngn(x)]=c1E[g1(x)]+c2E[g2(x)]++cnE[gn(x)]

- (5) 확률변수 XY가 서로 독립이면, E(XY)=E(X)E(Y)

■ 기댓값은 더하기(이산형)나 적분(연속형)이기 때문에, 곱한 것은 그대로 곱해지고, 더한 것은 그대로 더해진다. 그러므로 (2), (3), (4)가 성립하는 것이다.

■ 확률변수 XY가 서로 독립이면 결합확률분포는 주변확률분포의 곱이 되므로 XY에 대해 따로 더하거나 적분할  수 있으므로 (5)가 성립한다.

■ 예를 들어, X=(x1,x2,,xn),Y=(y1,y2,,yn)일 때, 두 사건 XY가 독립이라면, XY의 원소는 X의 원소 (x1,x2,,xn)Y의 원소 (y1,y2,,yn)의 모든 조합이다. (정확히는 두 원소의 곱에 대한 모든 조합)

ex) x1y1,x2y2,,xnym으로 XY의 모든 원소의 개수는 nm개가 된다.이때, E(XY)=(x1,,xn)(y1,,ym)nm=(x1,,xn)n(y1,,ym)m=E(X)E(Y)로 분리가 된다.

 

2. 분산(Variance)과 표준편차(Standard deviation)

2.1 분산의 개념

■ 확률변수의 분산은, 확률변수 X의 값들이 기댓값 E(X)로부터 얼마나 멀리 흩어져(떨어져) 있는지를 가늠하는 척도로, 확률변수 XE(X)로부터 떨어진 거리의 제곱의 기댓값(평균)이다.

■ 분산을 E[(XE[X])2] 또는 E[X]=μX로 두고 E[(XμX)2]로 표현하기도 한다.

분산이 크면, 확률변수의 값들이 기댓값으로부터 넓게 퍼져 있는 상태이다. 기댓값이 확률변수의 중심 위치를 나타내며, 분산은 확률변수의 각 값에서 기댓값을 뺀 값의 제곱의 기댓값이기 때문이다.

확률변수 X의 분산과 표준편차는 다음과 같이 정의된다. 그리고 '분산의 양의 제곱근'을 표준편차라고 한다.

Var(X)=σ2X=E[(XμX)2],μX=E(X)

σX=Var(X)

■ 이때, 예를 들어 g(x)=x2이면 E[g(x)]=xx2f(x)가 된다.

■ 이와 마찬가지로, 분산을 E[(XμX)2]=x(XμX)2f(x)로 나타낼 수 있다.

Var(X)=E[(XμX)2]=x(xμX)2f(x)=x(x22μXx+μ2X)f(x)=xx2f(x)2μXxxf(x)+μ2Xxf(x)

이때, xx2f(x)=E[X2],xxf(x)=μX(=E[X]),xf(x)=1이므로 Var(X)=E[X2]2μXμX+μ2X=E[X2]μ2X가 된다.

■ 정리하면 Var(X)=E[X2]μ2X

- 이때, E[X2]은 확률변수 X의 제곱의 기댓값이고, μ2X는 확률변수 X의 기댓값의 제곱이므로 항상 E[X2]μ2X보다 크거나 같다.

■ 확률변수 X의 확률분포함수를 f(x)라 할 때, X의 분산은 이산형(더하기)인 경우와 연속형(적분)인 경우 사용하는 식은 다음과 같다.

- (1) 이산형: Var(X)=E[(XμX)2]=x(xμX)2f(x)

- (2) 연속형: Var(X)=E[(XμX)2]=(xμX)2f(x)dx

■ 예를 들어, 주사위를 한 번 던지는 시행에서 나온 눈의 수를 확률변수 X라고 할 때, X의 기댓값과 분산은

- X=(1,2,3,4,5,6)이므로 이산형 확률변수

- μX=E(X)=16(1+2+3+4+5+6)=72

- Var(X)=E(X2)μ2X=16(12+22+32+42+52+62)(72)2=3512

■ 예를 들어, 확률변수 X의 확률분포가 f(x)=2e2x,0<x<일 때, X의 분산은

- E(X)=12, E(X2)=0x22e2xdx=12이므로 Var(X)=12(12)2=14

■ 만약, 확률분포함수 f(x)를 갖는 확률변수 X로부터 새로운 확률변수 Y=g(X)를 만들면, Y의 분산은 Var(g(X))=E[(YμY)2]=E[Y2]μ2Y가 된다.

■ 이때, Y의 분산은 이산형(더하기)인 경우와 연속형(적분)인 경우 사용하는 식은 다음과 같다.

- (1) 이산형: Var(g(X))=xg(x)2f(x)[xg(x)f(x)]2

- (2) 연속형: Var(g(X))=g(x)2f(x)dx[0g(x)f(x)dx]2

2.2 분산의 특성

■ 확률변수 X로부터 새로운 확률변수 Y=aX+b를 만들면, Y의 분산은 다음과 같이 더하거나 뺀 상수(b)에는 영향을 받지 않고, 곱한 상수(a)는 제곱이 된다.

Var(Y)=Var(aX+b)=a2Var(X), a,b는 상수

- 증명 Var(X), Var(Y)

Var(Y)=E[(YμY)2]=E[((aX+b)(aμX+b))2]=E[(aXaμX)2]=a2E[(XμX)2]=a2Var(X)

-- Y=ax+b,μY=aμX+b

■ 예를 들어, 이산형 문제에서 확률변수 Y가 선형인 Y=3X+10이라면 Var(Y)=32Var(X),

확률변수가 선형이아닌 Y=X3이라면 Var(Y)=E[(X3)2]E(X3)2

■ 예를 들어, 확률변수 X의 확률분포함수 f(x)=2e2x,0<x<일 때, Y=20X10인 연속형 문제라면, Var(Y)=202Var(X)

Y=X3이라면, (x3)22e2xdx+[0x32e2xdx]2를 계산하면 된다.

 

3. 공분산(Covariance)

■ 공분산은 다음과 같이 2개의 확률변수의 선형 상관관계의 정도를 나타낸다. 즉, 확률변수 XY의 값이 확률적으로 어떻게 결합되어 있는지를 나타내는 지표이다.

상관관계와 공분산

■ 두 확률변수의 공분산은 다음과 같이 계산된다.

Cov(X,Y)=σXY=E[(XμX)(YμY)]

■ 위의 그림은 XY의 산점도를 세로축은 x=μX, 가로축은 y=μY로하여 사분면으로 나눈 것이다.

- 강한 양의 상관관계인 경우 포인트들이 대부분 1사분면과 3사분면에 위치하며, 1사분면은 XμX>0 & YμY>0이고, 3사분면은 XμX<0 & YμY<0인 것을 볼 수 있다. 

- 따라서 (XμX)(YμY)>0이 되면서 공분산도 양의 값을 갖게 된다. 즉, 두 확률변수가 강한 양의 상관을 가지면 Cov(X,Y)>0이 된다.

- 반대로 강한 음의 상관관계인 경우 대부분의 포인트들이 2사분면과 4사분면에 위치하는 것을 볼 수 있다.

- 따라서 (XμX)(YμY)<0가 되므로 공분산은 음의 값을 갖게 된다. 즉, 두 확률변수가 강한 음의 상관을 가지면 Cov(X,Y)<0이 된다.

- Cov(X,Y)>0이면 두 확률변수는 강한 양의 상관관계, Cov(X,Y)<0이면 강한 음의 상관관계를 가지므로 Cov(X,Y)값이 0에 가까우면 가까울수록 두 확률변수의 상관관계가 미미한 것이고, Cov(X,Y)=0이면 두 확률변수 X,Y는 '상관관계 없음'으로 볼 수 있다.

■ 공분산의 식은 Cov(X,Y)=E[(XμX)(YμY)]이다. 이 식을 전개하면 다음과 같다.

Cov(X,Y)=E[(XμX)(YμY)]=E[XYμXYμYX+μXμY]
=E[XY]μXE[Y]μYE[X]+μXμY, E(X)=μX,E(Y)=μY이므로

=E[XY]μXμY

- μXμY는 계산된 기댓값. 즉, 상수

- cf) 저 식을 이용하면, Cov(X,X)=E[X2]μ2X=Var(X). 즉, 같은 변수끼리의 공분산은 결국 분산이 된다.

■ 확률변수 XY의 결합확률분포가 f(x,y)일 때, XY의 공분산은 이산형과 연속형으로 구분하여 계산한다.

- (1) 이산형: Cov(X,Y)=xyxyf(x,y)μXμY

- (2) 연속형: Cov(X,Y)=xyf(x,y)dxdyμXμY

■ 예를 들어, 이산형 문제에서 XY의 공분산은, 먼저 XY의 주변확률분포 fX(x),fY(y)값을 구한 뒤, E(X)E(Y) 그리고 E(XY)값을 구해서 Cov(X,Y)=E(XY)E(X)E(Y)를 계산하면 된다.

■ 문제가 연속형이면, 결합확률분포 f(x,y)와 적분에 사용할 xy의 범위를 확인한 뒤, fX(x),fY(y)를 구하고 E(X)E(Y) 그리고 E(XY)값을 구해서 Cov(X,Y)=E(XY)E(X)E(Y)를 계산하면 된다.

 

4. 분산과 공분산의 특성

■ 분산과 공분산의 특성은 다음과 같다.

- (1) 확률변수 XY가 서로 독립이면 Cov(X,Y)=0이다. (역은 성립하지 않는다.)

- 확률변수 XY가 서로 독립이면 E(XY)=E(X)E(Y)이다.

- Cov(X,Y)=E(XY)E(X)E(Y)이므로 Cov(X,Y)=E(XY)E(X)E(Y)=E(X)E(Y)E(X)E(Y)=0이 된다.

- (2) 확률변수 XY가 서로 독립이면, 두 확률변수의 합의 분산 Var(X+Y)=Var(X)+Var(Y)이다.

- E(X)=μX,E(Y)=μY,E(X+Y)=μX+μY임을 이용한다.

- Var(X+Y)=E[((X+Y)(μX+μY))2]=E[((XμX)+(YμY))2]=E[(XμX)2+(YμY)2+2(XμX)(YμY)] 
=E[(XμX)2]+E[(YμY)2]+2E(XYμXYμYX+μXμY)

이때, E(XYμXYμYX+μXμY)E(XY)μXE(Y)μYE(X)+μXμY=E(X)E(Y)E(X)E(Y)E(Y)E(X)+E(X)E(Y)=0이므로

Var(X+Y)=E[(XμX)2]+E[(YμY)2]+2E(XYμXYμYX+μXμY)=Var(X)+Var(Y)+0=Var(X)+Var(Y)
- 위와 같은 방식을 이용하면, 두 확률변수가 독립인 경우 Var(aX+bY)=a2Var(X)+b2Var(Y)가 성립한다.

- (3) 동일한 방법으로, 두 확률변수 XY가 독립이면, Var(XY)=Var(X)+Var(Y)

- (4) 서로 독립인 n개의 확률변수 X1,X2,,Xn에 대해 Var(a1X1+a2X2++anXn)=a21Var(X1)+a22Var(X2)++a2nVar(Xn)

- (5) 확률변수 XY가 '서로 독립이 아니면', Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

- 2E(XYμXYμYX+μXμY)=2(E(XY)E(X)E(Y))=2Cov(X,Y)이므로 (5)가 성립한다.

- E(X+Y)=E(X)+E(Y)E[(X+Y)2]=E(X2)+2E(XY)+E(Y2)임을 이용하면,

- Var(X+Y)=E[(X+Y)2][E(X+Y)]2=E(X2)+E(Y2)+2E(XY)[(E(X))2+(E(Y))2+2E(X)E(Y)]=E(X2)(E(X))2+E(Y2)(E(Y))2+2[E(XY)E(X)E(Y)]=Var(X)+Var(Y)+2Cov(X,Y)

- (5) 동일한 방법으로 Var(XY)=Var(X)+Var(Y)2Cov(X,Y), Var(aXbY)=a2Var(X)+b2Var(Y)2abCov(X,Y)

 

5. 상관계수(Correlation Coefficient)

■ 공분산은 +, - 부호에 따라 두 확률변수 간의 상관관계가 양인지 음인지 확인하는데 유용하다.

■ 하지만 공분산은 상관관계가 얼마나 강한지 나타낼 수 없다. 공분산은 '측정 단위'에 따라 그 값이 커질 수도, 작아질 수도 있기 때문이다.

■ '측정 단위와 무관하게' 상관관계의 강약을 나타내는 지표가 바로 상관계수이다.

■ 두 확률변수 X,Y에 대한 상관계수는 다음과 같이 계산된다.

Corr(X,Y)=ρXY=E[(XμXσX)(YμYσY)]=Cov(X,Y)Var(X)Var(Y)

이렇게 상관계수는 공분산을 각 확률변수의 표준편차로 나눔으로써 측정 단위가 상쇄되어 측정 단위의 영향을 받지 않는다.

- 예를 들어 X의 단위가 cm이고 Y의 단위가 kg이면 분자인 공분산 Cov(X,Y)의 단위는 cm·kg가 된다. 

- 분모인 σX,σY는 각각 X,Y의 단위와 같으므로 분모의 단위도 cm·kg가 된다. 그러므로 상관계수는 측정 단위가 상쇄되어 무단위 형태가 된다.

■ 그리고 상관계수는 1ρ1을 항상 만족한다. 상관계수가 1에 가까우면 '강한 양의 상관관계, -1에 가까우면 '강한 음의 상관관계' , 0에 가까울수록 상관관계가 미미하며, 0이면 '상관관계 없음'을 의미한다. 

- X=Y인 경우, Corr(X,Y)=Cov(X,X)Var(X)Var(X)=Var(X)Var(X)Var(X)=1

- Y=X인 경우, Corr(X,Y)=Var(X)Var(X)Var(X)=1

■ 여기서 말하는 상관관계도 '선형' 상관관계이므로, 직선의 형태가 아닌 상관성에 대해서는 판단할 수 없다.

- 예를 들어 원형, 포물선 등의 직선이 아닌 형태에 대한 상관성을 판단하는 지표로 사용할 수 없다.

'확률' 카테고리의 다른 글

연속형 확률분포 (1)  (0) 2025.02.14
적률생성함수  (0) 2025.02.14
이산형 확률분포  (0) 2025.02.14
확률변수와 확률분포  (0) 2024.09.03
확률  (0) 2024.08.28