1. 확률변수의 기댓값
1.1 기댓값의 개념
■ 확률변수의 기댓값은 '확률변수의 결과 값을 그 확률변수의 확률뷴포를 가중치로 평균한 값'으로 이산형 확률변수 X의 기댓값은 μX=E(X)=∑xxf(x), 연속형 확률변수 X의 기댓값은 μX=E(X)=∫∞−∞x⋅f(x)dx로 계산한다.
■ 기댓값은 '어떤 확률실험을 무한히 반복'했을 때, 얻을 수 있는 '확률변수 값들의 평균으로서 기대할 수 있는 값'을 의미한다.
■ 예를 들어 동전을 3번 던졌을 때, 뒷면이 나오는 횟수가 확률변수 X라고 하자. 이 확률변수의 기댓값은
- 앞면을 H, 뒷면을 T라고 하면 S = { HHH, HTT, HHT, HTH, TTT, THH, THT, TTH }이므로 뒷면이 0번 =18, 뒷면이 1번 =38, 뒷면이 2번 =38, 뒷면이 3번 =18이다.
■ 그러므로 E(X)=∑xxf(x)=0⋅f(0)+1⋅f(1)+2⋅f(2)+3⋅f(3)=38+68+38=128=32=1.5
■ 예를 들어 동전을 3번 던졌을 때, 앞면이면 100원, 뒷면이면 200원이라고 할 때, 수익이 확률변수 X라면, 기댓값은 다음과 같다.
- 3번 모두 앞면: 총 금액은 100×3=300, 확률은18
- 2번 앞면 & 1번 뒷면: 총 금액은 200+200=400, 확률은38
- 1번 앞면 & 2번 뒷면: 총 금액은 100+400=500, 확률은38
- 3번 모두 뒷면: 총 금액은 200×3=600, 확률은18 이므로
- E(X)=300×18+400×38+500×38+600×18=450. 즉, 동전을 3번 던졌을 때 앞면 100원, 뒷면 200원이면 기대할 수 있는 수익은 450원이다.
■ 동일하게 동전을 3번 던져 (앞면의 개수 - 뒷면의 개수)만큼 100원씩 주고 받을 때, 수익의 기댓값은 E(X)=300−300+300−3008=0이 된다.
■ E(X)=0, 기댓값이 0이라는 의미는 확률변수의 평균적인 기대 결과가 중립적인 것으로, 확률변수 X가 수익이라면, 평균적인 손해도 이익도 없는 상태. 즉, 손실과 이익이 균형을 이루는 상태로 공정한 상황이라 볼 수 있다.
■ 만약, 기댓값이 마이너스면 수익을 기대하기 어렵고, 불공정한 상황이라고 볼 수 있다.
- 만약, N번 수행하여 기댓값 E(X)=−150이면, 확률 실험을 N번 반복했을 때 평균적인 손실이 150이라는 것을 의미한다.
■ 연속형 확률변수의 예로, 연속형 확률변수 X의 확률밀도함수 f(x)=34x2,0≤x≤1일 때, E(X)=∫10x⋅f(x)dx=∫1034x3dx=34⋅14=316≈0.1875이다.
1.2 확률변수 함수의 기댓값
■ 확률변수 X로 또 다른 확률변수 Y=g(X), 즉 확률변수 Y가 또 다른 확률변수 X의 함수일 때, 확률변수 Y의 기댓값은 확률변수 X의 확률분포를 사용한다.
- 이산형이라면, E(Z)=E[g(X,Y)]=∑x∑yg(x,y)f(x,y)
- 연속형이라면, E(Z)=E[g(X,Y)]=∫∞−∞∫∞−∞g(x,y)f(x,y)dxdy
■ 예를 들어, 확률변수 X가 동전을 2번 던져서 앞면이 나올 때의 수익일 때, 각 결고아ㅢ 수익을 제곱한 값의 기댓값은
- 각 결과의 수익을 제곱한 값은 확률변수로부터 또 다른 확률변수 Y=X2을 만든 것이다.
- 앞면이 0번 나온다면 X=0, 확률은 14,
- 앞면이 1번 나온다면 X=100, 확률은 12,
- 앞면이 2번 나온다면 X=200, 확률은 14이다.
- X2이면 X=0일 때, X2=0, X=100일 때 X2=10000, X=200일 때 X2=40000이므로
- E(Y)=E(X2)=∑xx2⋅f(x)=0+(100002)+(400004)=15,000이다.
■ 예를 들어, 연속형 확률변수에서 확률변수 X의 확률밀도함수가 f(x)=34x2,0≤x≤1일 때, Y=(X+1)2의 기댓값은
- E(Y)=E[(x+1)2]=∫10(x+1)2⋅34x2dx=3140≈0.775
1.3 결합분포에서의 기댓값
■ 두 확률변수 X,Y의 결합확률분포가 f(x,y), 두 확률변수로부터 만들어진 새로운 확률변수 Z=g(X,Y)라고 했을 때, Z의 기댓값은
- 이산형이라면, E(Z)=E[g(X,Y)]=∑x∑yg(x,y)f(x,y)
- 연속형이라면, E(Z)=E[g(x,Y)]=∫∞−∞∫∞−∞g(x,y)f(x,y)dxdy
■ 예를 들어 주사위를 두 번 던지는 시행에서 눈의 최대치를 X라 하고, 눈의 최소치를 Y라고 할 때, Z=XY의 기댓값은
- 시그마 순서대로 계산하면 ∑yxyf(x,y)=xf(x,1)+2xf(x,2)+3xf(x,3)+4xf(x,4)+5xf(x,5)+6xf(x,6)⇒∑x(xf(x,1)+2xf(x,2)+3xf(x,3)+4xf(x,4)+5xf(x,5)+6xf(x,6))=136+2⋅236+2⋅336+2⋅436+2⋅536+2⋅636+⋯+3636=12.25
1.4 기댓값의 특성
■ 기댓값은 확률변수에 상수를 곱하거나/나누거나, 더하거나/빼거나 하더라도 기댓값에 그대로 적용된다. 이를 '기댓값의 선형성'이라고 한다.
- (1) E(C)=C(C는 상수)
- (2) E(X+Y)=E(X)+E(Y)
- (3) E(aX+b)=aE(X)+b, a,b는 상수
-- E(c⋅g(x))=c⋅E(g(x)), 이때 g(x)가 선형이라면, E[c⋅g(x)]=c⋅E[g(x)]=c⋅gE(x) 가능
- (4) 함수 g1(x),g2(x),…,gn(x)에 대해 E[c1g1(x)+c2g2(x)+⋯+cngn(x)]=c1E[g1(x)]+c2E[g2(x)]+⋯+cnE[gn(x)]
- (5) 확률변수 X와 Y가 서로 독립이면, E(XY)=E(X)E(Y)
■ 기댓값은 더하기(이산형)나 적분(연속형)이기 때문에, 곱한 것은 그대로 곱해지고, 더한 것은 그대로 더해진다. 그러므로 (2), (3), (4)가 성립하는 것이다.
■ 확률변수 X와 Y가 서로 독립이면 결합확률분포는 주변확률분포의 곱이 되므로 X와 Y에 대해 따로 더하거나 적분할 수 있으므로 (5)가 성립한다.
■ 예를 들어, X=(x1,x2,⋯,xn),Y=(y1,y2,⋯,yn)일 때, 두 사건 X와 Y가 독립이라면, XY의 원소는 X의 원소 (x1,x2,⋯,xn)과 Y의 원소 (y1,y2,⋯,yn)의 모든 조합이다. (정확히는 두 원소의 곱에 대한 모든 조합)
ex) x1y1,x2y2,⋯,xnym으로 XY의 모든 원소의 개수는 nm개가 된다.이때, E(XY)=(x1,…,xn)(y1,…,ym)nm=(x1,…,xn)n⋅(y1,…,ym)m=E(X)E(Y)로 분리가 된다.
2. 분산(Variance)과 표준편차(Standard deviation)
2.1 분산의 개념
■ 확률변수의 분산은, 확률변수 X의 값들이 기댓값 E(X)로부터 얼마나 멀리 흩어져(떨어져) 있는지를 가늠하는 척도로, 확률변수 X가 E(X)로부터 떨어진 거리의 제곱의 기댓값(평균)이다.
■ 분산을 E[(X−E[X])2] 또는 E[X]=μX로 두고 E[(X−μX)2]로 표현하기도 한다.
■ 분산이 크면, 확률변수의 값들이 기댓값으로부터 넓게 퍼져 있는 상태이다. 기댓값이 확률변수의 중심 위치를 나타내며, 분산은 확률변수의 각 값에서 기댓값을 뺀 값의 제곱의 기댓값이기 때문이다.
■ 확률변수 X의 분산과 표준편차는 다음과 같이 정의된다. 그리고 '분산의 양의 제곱근'을 표준편차라고 한다.
Var(X)=σ2X=E[(X−μX)2],μX=E(X)
σX=√Var(X)
■ 이때, 예를 들어 g(x)=x2이면 E[g(x)]=∑xx2⋅f(x)가 된다.
■ 이와 마찬가지로, 분산을 E[(X−μX)2]=∑x(X−μX)2⋅f(x)로 나타낼 수 있다.
■ Var(X)=E[(X−μX)2]=∑x(x−μX)2⋅f(x)=∑x(x2−2μXx+μ2X)⋅f(x)=∑xx2⋅f(x)−2μX∑xx⋅f(x)+μ2X∑xf(x)
이때, ∑xx2⋅f(x)=E[X2],∑xx⋅f(x)=μX(=E[X]),∑xf(x)=1이므로 Var(X)=E[X2]−2μXμX+μ2X=E[X2]−μ2X가 된다.
■ 정리하면 Var(X)=E[X2]−μ2X
- 이때, E[X2]은 확률변수 X의 제곱의 기댓값이고, μ2X는 확률변수 X의 기댓값의 제곱이므로 항상 E[X2]이 μ2X보다 크거나 같다.
■ 확률변수 X의 확률분포함수를 f(x)라 할 때, X의 분산은 이산형(더하기)인 경우와 연속형(적분)인 경우 사용하는 식은 다음과 같다.
- (1) 이산형: Var(X)=E[(X−μX)2]=∑x(x−μX)2⋅f(x)
- (2) 연속형: Var(X)=E[(X−μX)2]=∫∞−∞(x−μX)2⋅f(x)dx
■ 예를 들어, 주사위를 한 번 던지는 시행에서 나온 눈의 수를 확률변수 X라고 할 때, X의 기댓값과 분산은
- X=(1,2,3,4,5,6)이므로 이산형 확률변수
- μX=E(X)=16(1+2+3+4+5+6)=72
- Var(X)=E(X2)−μ2X=16(12+22+32+42+52+62)−(72)2=3512
■ 예를 들어, 확률변수 X의 확률분포가 f(x)=2e−2x,0<x<∞일 때, X의 분산은
- E(X)=12, E(X2)=∫∞0x2⋅2e−2xdx=12이므로 Var(X)=12−(12)2=14
■ 만약, 확률분포함수 f(x)를 갖는 확률변수 X로부터 새로운 확률변수 Y=g(X)를 만들면, Y의 분산은 Var(g(X))=E[(Y−μY)2]=E[Y2]−μ2Y가 된다.
■ 이때, Y의 분산은 이산형(더하기)인 경우와 연속형(적분)인 경우 사용하는 식은 다음과 같다.
- (1) 이산형: Var(g(X))=∑xg(x)2f(x)−[∑xg(x)f(x)]2
- (2) 연속형: Var(g(X))=∫∞−∞g(x)2f(x)dx−[∫∞0g(x)f(x)dx]2
2.2 분산의 특성
■ 확률변수 X로부터 새로운 확률변수 Y=aX+b를 만들면, Y의 분산은 다음과 같이 더하거나 뺀 상수(b)에는 영향을 받지 않고, 곱한 상수(a)는 제곱이 된다.
Var(Y)=Var(aX+b)=a2Var(X), a,b는 상수
- 증명 Var(X), Var(Y)
Var(Y)=E[(Y−μY)2]=E[((aX+b)−(aμX+b))2]=E[(aX−aμX)2]=a2E[(X−μX)2]=a2Var(X)
-- Y=ax+b,μY=aμX+b
■ 예를 들어, 이산형 문제에서 확률변수 Y가 선형인 Y=3X+10이라면 Var(Y)=32Var(X),
확률변수가 선형이아닌 Y=X3이라면 Var(Y)=E[(X3)2]−E(X3)2
■ 예를 들어, 확률변수 X의 확률분포함수 f(x)=2e−2x,0<x<∞일 때, Y=20X−10인 연속형 문제라면, Var(Y)=202Var(X)
Y=X3이라면, ∫∞−∞(x3)2⋅2e−2xdx+[∫∞0x3⋅2e−2xdx]2를 계산하면 된다.
3. 공분산(Covariance)
■ 공분산은 다음과 같이 2개의 확률변수의 선형 상관관계의 정도를 나타낸다. 즉, 확률변수 X와 Y의 값이 확률적으로 어떻게 결합되어 있는지를 나타내는 지표이다.

■ 두 확률변수의 공분산은 다음과 같이 계산된다.
Cov(X,Y)=σXY=E[(X−μX)(Y−μY)]
■ 위의 그림은 X와 Y의 산점도를 세로축은 x=μX, 가로축은 y=μY로하여 사분면으로 나눈 것이다.
- 강한 양의 상관관계인 경우 포인트들이 대부분 1사분면과 3사분면에 위치하며, 1사분면은 X−μX>0 & Y−μY>0이고, 3사분면은 X−μX<0 & Y−μY<0인 것을 볼 수 있다.
- 따라서 (X−μX)(Y−μY)>0이 되면서 공분산도 양의 값을 갖게 된다. 즉, 두 확률변수가 강한 양의 상관을 가지면 Cov(X,Y)>0이 된다.
- 반대로 강한 음의 상관관계인 경우 대부분의 포인트들이 2사분면과 4사분면에 위치하는 것을 볼 수 있다.
- 따라서 (X−μX)(Y−μY)<0가 되므로 공분산은 음의 값을 갖게 된다. 즉, 두 확률변수가 강한 음의 상관을 가지면 Cov(X,Y)<0이 된다.
- Cov(X,Y)>0이면 두 확률변수는 강한 양의 상관관계, Cov(X,Y)<0이면 강한 음의 상관관계를 가지므로 Cov(X,Y)값이 0에 가까우면 가까울수록 두 확률변수의 상관관계가 미미한 것이고, Cov(X,Y)=0이면 두 확률변수 X,Y는 '상관관계 없음'으로 볼 수 있다.
■ 공분산의 식은 Cov(X,Y)=E[(X−μX)(Y−μY)]이다. 이 식을 전개하면 다음과 같다.
Cov(X,Y)=E[(X−μX)(Y−μY)]=E[XY−μXY−μYX+μXμY]
=E[XY]−μXE[Y]−μYE[X]+μXμY, E(X)=μX,E(Y)=μY이므로
=E[XY]−μXμY
- μX와 μY는 계산된 기댓값. 즉, 상수
- cf) 저 식을 이용하면, Cov(X,X)=E[X2]−μ2X=Var(X). 즉, 같은 변수끼리의 공분산은 결국 분산이 된다.
■ 확률변수 X와 Y의 결합확률분포가 f(x,y)일 때, X와 Y의 공분산은 이산형과 연속형으로 구분하여 계산한다.
- (1) 이산형: Cov(X,Y)=∑x∑yxyf(x,y)−μXμY
- (2) 연속형: Cov(X,Y)=∫∞−∞∫∞−∞xyf(x,y)dxdy−μXμY
■ 예를 들어, 이산형 문제에서 X와 Y의 공분산은, 먼저 X와 Y의 주변확률분포 fX(x),fY(y)값을 구한 뒤, E(X)와 E(Y) 그리고 E(XY)값을 구해서 Cov(X,Y)=E(XY)−E(X)E(Y)를 계산하면 된다.
■ 문제가 연속형이면, 결합확률분포 f(x,y)와 적분에 사용할 x와 y의 범위를 확인한 뒤, fX(x),fY(y)를 구하고 E(X)와 E(Y) 그리고 E(XY)값을 구해서 Cov(X,Y)=E(XY)−E(X)E(Y)를 계산하면 된다.
4. 분산과 공분산의 특성
■ 분산과 공분산의 특성은 다음과 같다.
- (1) 확률변수 X와 Y가 서로 독립이면 Cov(X,Y)=0이다. (역은 성립하지 않는다.)
- 확률변수 X와 Y가 서로 독립이면 E(XY)=E(X)E(Y)이다.
- Cov(X,Y)=E(XY)−E(X)E(Y)이므로 Cov(X,Y)=E(XY)−E(X)E(Y)=E(X)E(Y)−E(X)E(Y)=0이 된다.
- (2) 확률변수 X와 Y가 서로 독립이면, 두 확률변수의 합의 분산 Var(X+Y)=Var(X)+Var(Y)이다.
- E(X)=μX,E(Y)=μY,E(X+Y)=μX+μY임을 이용한다.
- Var(X+Y)=E[((X+Y)−(μX+μY))2]=E[((X−μX)+(Y−μY))2]=E[(X−μX)2+(Y−μY)2+2(X−μX)(Y−μY)]
=E[(X−μX)2]+E[(Y−μY)2]+2E(XY−μXY−μYX+μXμY)
Var(X+Y)=E[(X−μX)2]+E[(Y−μY)2]+2E(XY−μXY−μYX+μXμY)=Var(X)+Var(Y)+0=Var(X)+Var(Y)
- 위와 같은 방식을 이용하면, 두 확률변수가 독립인 경우 Var(aX+bY)=a2Var(X)+b2Var(Y)가 성립한다.
- (3) 동일한 방법으로, 두 확률변수 X와 Y가 독립이면, Var(X−Y)=Var(X)+Var(Y)
- (4) 서로 독립인 n개의 확률변수 X1,X2,⋯,Xn에 대해 Var(a1X1+a2X2+⋯+anXn)=a21Var(X1)+a22Var(X2)+⋯+a2nVar(Xn)
- (5) 확률변수 X와 Y가 '서로 독립이 아니면', Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
- 2E(XY−μXY−μYX+μXμY)=2(E(XY)−E(X)E(Y))=2Cov(X,Y)이므로 (5)가 성립한다.
- E(X+Y)=E(X)+E(Y)와 E[(X+Y)2]=E(X2)+2E(XY)+E(Y2)임을 이용하면,
- Var(X+Y)=E[(X+Y)2]−[E(X+Y)]2=E(X2)+E(Y2)+2E(XY)−[(E(X))2+(E(Y))2+2E(X)E(Y)]=E(X2)−(E(X))2+E(Y2)−(E(Y))2+2[E(XY)−E(X)E(Y)]=Var(X)+Var(Y)+2Cov(X,Y)
- (5) 동일한 방법으로 Var(X−Y)=Var(X)+Var(Y)−2Cov(X,Y), Var(aX−bY)=a2Var(X)+b2Var(Y)−2abCov(X,Y)
5. 상관계수(Correlation Coefficient)
■ 공분산은 +, - 부호에 따라 두 확률변수 간의 상관관계가 양인지 음인지 확인하는데 유용하다.
■ 하지만 공분산은 상관관계가 얼마나 강한지 나타낼 수 없다. 공분산은 '측정 단위'에 따라 그 값이 커질 수도, 작아질 수도 있기 때문이다.
■ '측정 단위와 무관하게' 상관관계의 강약을 나타내는 지표가 바로 상관계수이다.
■ 두 확률변수 X,Y에 대한 상관계수는 다음과 같이 계산된다.
Corr(X,Y)=ρXY=E[(X−μXσX)(Y−μYσY)]=Cov(X,Y)√Var(X)√Var(Y)
■ 이렇게 상관계수는 공분산을 각 확률변수의 표준편차로 나눔으로써 측정 단위가 상쇄되어 측정 단위의 영향을 받지 않는다.
- 예를 들어 X의 단위가 cm이고 Y의 단위가 kg이면 분자인 공분산 Cov(X,Y)의 단위는 cm·kg가 된다.
- 분모인 σX,σY는 각각 X,Y의 단위와 같으므로 분모의 단위도 cm·kg가 된다. 그러므로 상관계수는 측정 단위가 상쇄되어 무단위 형태가 된다.
■ 그리고 상관계수는 −1≤ρ≤1을 항상 만족한다. 상관계수가 1에 가까우면 '강한 양의 상관관계, -1에 가까우면 '강한 음의 상관관계' , 0에 가까울수록 상관관계가 미미하며, 0이면 '상관관계 없음'을 의미한다.
- X=Y인 경우, Corr(X,Y)=Cov(X,X)√Var(X)√Var(X)=Var(X)√Var(X)√Var(X)=1
- Y=−X인 경우, Corr(X,Y)=−Var(X)√Var(X)√Var(X)=−1
■ 여기서 말하는 상관관계도 '선형' 상관관계이므로, 직선의 형태가 아닌 상관성에 대해서는 판단할 수 없다.
- 예를 들어 원형, 포물선 등의 직선이 아닌 형태에 대한 상관성을 판단하는 지표로 사용할 수 없다.
'확률' 카테고리의 다른 글
연속형 확률분포 (1) (0) | 2025.02.14 |
---|---|
적률생성함수 (0) | 2025.02.14 |
이산형 확률분포 (0) | 2025.02.14 |
확률변수와 확률분포 (0) | 2024.09.03 |
확률 (0) | 2024.08.28 |