Projection matrices and least squares

1. Projection - Two extreme cases

■ 투영 행렬 $P = A (A^T A)^{-1} A^T$ 는 $A \mathbf{x} = b$ 의 우변 벡터 $b$ 를 $A$ 의 열공간에서 가장 가까운(근사한) 벡터로 바꿔주는 역할을 한다.

■ 그러므로 $P$ 에 $b$ 를 곱하면 벡터 $b$ 를 열공간에서 가장 가까운 벡터 $p$ 로 투영한다. $p = Pb$

■ 여기서 말하는 두 가지 극단적인 경우는 벡터 $b$ 가 이미 $A$ 의 열공간에 존재하는 경우와 벡터 $b$ 가 열공간에 수직인 경우이며, 두 가지 경우의 벡터 $b$ 에 투영 행렬 $P$ 를 곱했을 때 어떤 결과가 발생하는지 확인하려 한다.

■ 먼저 벡터 $b$ 가 열공간에 존재하는 경우 투영 행렬 $P$ 에 $b$ 를 곱하면, 다시 $b$ 를 얻는다. 즉, $Pb = b$

■ 벡터 $b$ 가 열공간에 존재하는 벡터라는 것은 $A$ 의 열벡터들의 선형 결합으로 벡터 $b$ 를 만들 수 있다는 것이며, 여기서의 선형 결합은 $A \mathbf{x}$ 이다.

■ 벡터 $b$ 가 열공간에 존재하는 경우 $A \mathbf{x} = b$ 가 성립한다. 이때 투영 행렬 $P = A (A^T A)^{-1} A^T$ 에 $b$ 를 곱하면 $Pb = A(A^TA)^{-1} A^TAx = Ax = b$ 가 성립하게 된다. 이는 투영 행렬이 이미 열공간에 존재하는 벡터 $b$ 를 그대로 유지시킨 것으로 볼 수 있다.

■ 두 번째 경우는 벡터 $b$ 가 열공간에 수직인 경우이다. 열공간을 어떤 평면이라고 생각했을 때, 열공간이 벡터 $b$ 와 수직이라는 것은 벡터 $b$ 와 평면의 모든 벡터들의 내적 결과가 0이라는 것을 의미한다.

■ $A$ 의 대표적인 열공간의 벡터는 열공간의 기저이며 $A \mathbf{x} = b$ 에서 $b$ 는 열벡터이고 $A$ 의 열은 $A^T$ 에서 행으로 바뀌므로,

$A^T b$ 는 $b$ 와 수직인 벡터들(여기서는 $A$ 의 기저)과 $b$ 의 내적들의 계산을 하는 것이므로 $A^T b = 0$ 이 성립한다.

■ $P = A (A^T A)^{-1} A^T$ 에 벡터 $b$ 를 곱하면 $Pb = A (A^T A)^{-1} A^Tb$ 이며 $A^T b = 0$ 이므로 $Pb = A (A^T A)^{-1} A^Tb = 0$ 이 성립한다.

■ 또한, $b$ 가 열공간과 수직이라는 것은 $b$ 가 열공간이 아닌 다른 공간에 존재한다는 것을 의미한다. 바로 left null space에 벡터 $b$ 가 존대한다. 다음과 같이 열공간과 수직인 공간은 left nullspace이기 때문이다.

[출처] Gilbert Strang - Introduction to Linear Algebra

■ 열공간과 left nullspace는 서로 직교하므로 열공간에 있는 모든 벡터와 left nullspace에 있는 모든 벡터들의 내적은 0이 되어야 한다.

■ 여기서 알 수 있는 것은 $p$ 는 열공간에 있는 $b$ 와 근사한 벡터이다. 즉, $p$ 는 열공간에 존재한다.

■ 그리고 오차 벡터 $e$ 는 $p$ 와 직교한다. $p$ 는 열공간에 있기 때문에 $p$ 와 수직 관계를 갖는 $e$ 는 left nullspace에 존재한다.

■ 그리고 벡터 $b$ 는 위의 두 극단적인 경우처럼, 열공간에 존재하거나 left nullspace에 존재할 수 있으며, 열공간과 left nullspace의 교집합에 있을 수도 있다.

■ 만약, 다음과 같이 벡터 $b$ 가 열공간에 존재하지 않는 경우

벡터 $b$ 를 열공간에 투영한 벡터가 $p$ 가 되고 left nullspace에 투영한 벡터가 $e$ 가 되는 것을 알 수 있다.

$p$ 는 벡터 $b$ 를 열공간에 투영한 것이기 때문에 $p = Pb$ 가 된다. $b = p + e$ 임을 이용하면, $b = Pb + e \Leftrightarrow e = b - Pb = (I-P)b$ 가 성립한다. 즉 오차 벡터 $e$ 는 $I - P$ 라는 투영 행렬에 벡터 $b$ 를 곱한 결과로 볼 수 있다.

- $(I - P)$ 도 투영 행렬이기 때문에 $(I - P)^T = (I - P)$ 와 $(I - P)^2 = (I - P)$ 를 만족한다.

■ $p = Pb$ 와 $e = (I - P)b$ 임을 이용하면, $b = p + e$ 는 다음과 같이 전개되므로 $b = p + e = b$ 가 된다.

$b = p + e = P b + (I - P) b = P b + I b - P b = b$

2. Least Square Method(최소자승법 또는 최소제곱법)

■ 투영(projection)을 사용하는 이유는 $A \mathbf{x} = b$ 에서 미지수보다 방정식이 많아서 해가 존재하지 않을 때, 정확한 해가 아니더라도 주어진 모든 방정식을 최대한 만족시키는 근사해(또는 최적해)를 찾기 위함이다.

■ Least Square Method는 주어진 정보(방정식)를 최대한 만족시키는 하나의 직선 방정식을 찾는 방법이다.

- 즉, 최소자승법(최소제곱법)의 가설은 직선 방정식 $y = ax+b$ 가 된다.

■ 예를 들어 다음과 같이 가로 축이 시간에 대한 축이고 세로 축이 시간에 따른 점수를 나타내는 축이라고 했을 때, 1시간에 1점, 2시간에 2점, 3시간에 2점을 받았다고 하자.

■ 이렇게 주어진 정보 (1, 1), (2, 2), (3, 2)를 이용해 미래 시점에 발생하는, 4시간, 5시간일 때 받을 수 있는 점수를 예측하기 위해 최소자승법은 위의 데이터 포인트들을 잘 표현할 수 있는 하나의 최적의 직선을 찾는다.

■ 최소자승법의 가설은 직선의 방정식 $y = ax + b$ 이기 때문에, 위의 데이터들을 잘 표현할 수 있는 최적의 직선을 찾는 문제는 최적의 $a, b$ 를 구하는 문제가 된다.

■ 문제를 푸는 방법은 다음과 같이 최소자승법의 가설인 $y = ax + b$ 에 주어진 정보 $(x, y) = (1, 1), (2, 2), (3, 2)$ 를 넣는다. 넣으면, 방정식을 얻을 수 있으며, 방정식을 $A \mathbf{x} = b$ 형태로 바꿀 수 있다.

$\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} a \\ b \end{bmatrix} = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix}$

이 에에서 미지수보다 방정식이 더 많으므로( 행렬 $A$ 가 m > n )) $A \mathbf{x} = b$ 를 완벽하게 만족시키는 정확한 해 $\mathbf{x}$ 는 존재하지 않는다.

■ 그러므로 다음과 같이 근사해(또는 최적해)를 구하기 위해 $A \mathbf{x} = b$ 의 양변에 $A^T$ 를 곱해 $A^T A \hat{\mathbf{x}} = A^T b$ 를 계산하면 된다.

■ 현재 찾고자 하는 직선은 주어진 데이터를 잘 표현할 수 있는 최적의 직선이며, 데이터를 잘 표현하는 직선은 실제값과 예측값의 오차(error)가 최소가 되게 만드는 직선을 의미하며, 결국 각 데이터와 직선 사이의 오차에 대해 오차의 총합이 최소가 되게 만드는 직선의 파라미터 $a, b$ 를 찾아야 한다.

■ $A \mathbf{x}$ 는 주어진 데이터를 직선 $y = ax+b$ 에 대입한 상태이며, 우변 $b$ 는 그 결과인 $y$ 이므로 모든 오차가 0이 되는 상황은 $A \mathbf{x} - b = 0$ 이다.

■ 즉, 오차 벡터를 $e$ 라고 했을 때, $A \mathbf{x} - b = e$ 이며, 최소화 하고자 하는 것은 오차'값'이므로 $A \mathbf{x} - b = e$ 에 norm을 씌워야 한다. 그리고 오차 결과가 음수가 나오는 것을 방지하기 위해서 다음과 같이 제곱을 해야 한다.

$\|Ax - b\|^2 = \|e\|^2$

■ 그러므로 최소자승법은 $\text{Minimize}$ $\|Ax - b\|^2 = \|e\|^2$ 를 푸는 문제가 된다. (정확히는 목적 함수를 최소화하는 파라미터를 찾기 위함)

- $A \mathbf{x} - b$ 의 결과는 오차 벡터 $e$ 이며, 오차 벡터에 대한 길이는 오차의 총 크기를 나타낸다.

■ 만약 다음과 같이 최적의 직선을 찾았을 때, 기존의 데이터와 직선의 거리가 가까우면 오차가 적은 것이며, 거리가 멀면 오차가 큰 상황이다.

- 이 예에서는 다음과 같이 오차 $e_1, e_2 ,e_3$ 를 얻었다고 하자.

■ 위의 그림은 주어진 데이터를 이용해 직선의 파라미터 $a, b$ 를 추정해서 $t-s$ 평면에 그린 그림이다. 하얀색 점은 실제값, 파란색 점은 예측값이며, 빨간색 선은 실제값과 예측값이 차이. 즉, 오차를 나타낸다.

■ 오차 벡터를 $\mathbf{e} = [e_1, e_2, e_3]^T$ 라고 했을 때, 오차의 총합은 각 오차의 자승(square)의 합으로 표현할 수 있다. $\text{overall error} = e_1^2 + e_2^2 + e_3^2$

■ $\text{overall error} = e_1^2 + e_2^2 + e_3^2$ 이 값이 최소화하고자 하는 오차(손실)값이다.

2.1 Outliers in Least Square

■ 이상치(outlier)란, 데이터들의 분포에서 크게 벗어난 소수의 데이터를 의미한다. 이러한 outlier는 대부분 쓸모없는 값. 즉, noise data인 경우가 많다.

■ 최소자승법은 모든 데이터에 대한 오차를 최소화해야 하는데 만약 다음과 같이 (0, 3)의 outlier가 추가 된다면, outlier의 영향을 크게 받아 직선의 파라미터값이 바뀔 것이다.(직선의 형태가 바뀐다.)

■ 즉, outlier가 존재하면 최소자승법은 전체 데이터를 잘 반영하지 못하게 될 가능성이 커진다.

2.2 Solution of Least Square

■ 이 문제는 앞서 얘기한 것처럼 $A^T A \hat{\mathbf{x}} = A^T b$ 를 계산하면 된다.

■ $A^T A \hat{\mathbf{x}} = A^T b$ 를 계산하면 $\begin{bmatrix} 14 & 6 \\ 6 & 3 \end{bmatrix} \begin{bmatrix} \hat{a} \\ \hat{b} \end{bmatrix} = \begin{bmatrix} 11 \\ 5 \end{bmatrix}$ $\quad$ $\begin{bmatrix} 14 \\ 6 \end{bmatrix} \hat{a} + \begin{bmatrix} 6 \\ 3 \end{bmatrix} \hat{b} = \begin{bmatrix} 11 \\ 5 \end{bmatrix}$ 이므로 계산하면 $\hat{a} = \frac{1}{2}, \quad \hat{b} = \frac{2}{3}$ 이므로 최적의 직선 방정식은 $y = \dfrac{1}{2}x + \dfrac{2}{3}$ 이 된다.

- 좌변을 우변으로 넘겨 풀 수 도 있는데. 즉 $\hat{\mathbf{x}}$ 에 대한 식으로 정리할 수 있는데, 이는 $A^T A$ 의 역행렬이 존재해야 한다는 조건이 있다.

- $A^T A$ 의 역행렬이 존재하는 조건은 $A$ 의 열벡터들이 독립이어야 한다는 것이며, 앞서 $\text{rank} A = \text{rank} A^TA$ 와 $N(A) = N(A^TA)$ 가 성립함을 확인하였다.
■ 다음 문제에서 순서대로 $A, \mathbf{x}, b$ 라고 한다면,

■ 행렬 $A$ 의 열벡터는 독립이므로 두 열벡터는 행렬 $A$ 의 열공간의 기저이다.
■ 그리고 $b$ 는 해가 존재하지 않는 상황이므로 열공간에 존재하지 않는다.

■ 이렇게 정확한 해는 존재하지 않지만 최대한 유사한 해를 구하기 위해 투영을 사용한다. 정확히는 $b$ 를 열공간에 투영시킨다.

■ $b$ 를 열공간에 투영시켜 얻은 벡터를 $p$ 라고 한다면, $b = [1 2 2]^T$ 에서 $p = [p_1, p_2, p_3]^T$ 으로 바꾼 것이며 $A \mathbf{x} = b$ 의 문제는 $A \hat{\mathbf{x}} = p$ 를 푸는 문제가 된다.

$\begin{bmatrix} 1 & 1 \\ 2 & 1 \\ 3 & 1 \end{bmatrix} \begin{bmatrix} \hat{a} \\ \hat{b} \end{bmatrix} = \begin{bmatrix} p_1 \\ p_2 \\ p_3 \end{bmatrix}$

여기서 얻은 $p_1, p_2, p_3$ 이 바로 최적의 직선을 통해 계산한 '예측값'이다.

■ 위에서 구한 $\hat{a} = \frac{1}{2}, \quad \hat{b} = \frac{2}{3}$ 를 위에 넣으면 $p_1 = \frac{7}{6}, p_2 =\frac{5}{3}. p_3 = \frac{13}{6}$ 이며, $p = [p_1 p_2 p_3]^T$ 를 통해 $e = b - p$ 임을 이용하여 오차 벡터 $e$ 를 다음과 같이 구할 수 있다. 여기서 얻은 $e_1, e_2, e_3$ 이 각 포인트에서의 오차값이다. $e = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} - \begin{bmatrix} \frac{7}{6} \\ \frac{5}{3} \\ \frac{13}{6} \end{bmatrix} = \begin{bmatrix} -\frac{1}{6} \\ \frac{2}{6} \\ -\frac{1}{6} \end{bmatrix}$ ■ 이와 같은 최소자승법은 통계학에서 회귀(= 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정)이며, 찾고자 하는 것은 최적의 직선. 즉 선형이므로, 최소자승법은 통계학의 선형 회귀(Linear Regression)과 같다.

2.3 error vector

■ 원래 값인 $b$ 는 오차 벡터 $e$ 와 투영 벡터 $p$ 의 합으로 표현된다. 그리고 $p$ 는 열공간에 $e$ 는 left nullspace에 있기 때문에 $p$ 와 $e$ 는 직교한다.

$\mathbf{b} = \begin{bmatrix} 1 \\ 2 \\ 2 \end{bmatrix} = \mathbf{e} + \mathbf{p} = \begin{bmatrix} -\frac{1}{6} \\ \frac{2}{6} \\ -\frac{1}{6} \end{bmatrix} + \begin{bmatrix} \frac{7}{6} \\ \frac{10}{6} \\ \frac{13}{6} \end{bmatrix}$

■ 위에서 계산한 $p$ 와 $e$ 를 내적하면 -7/36 + 20/36 - 13/36 = 0이 된다.

단, $e$ 와 직교하는 것은 $p$ 만 있는 것이 아니다. 열공간에는 $p$ 와 행렬 $A$ 의 열공간을 생성하는 열공간의 기저도 포함되어 있다. 즉, left nullspace에 있는 $e$ 는 열공간의 모든 벡터와 직교하므로 행렬 $A$ 의 열공간의 기저와도 직교한다.

- 행렬 $A$ 의 열공간의 기저 두 개를 $a_1, a_2$ 라고 했을 때, 오차 벡터 $e$ 와의 내적 $e^T a_1$ 과 $e^T a_2$ 를 계산하면 $e^T a_1 = 0$ , $e^T a_2 = 0$ 이 되는 것을 확인할 수 있다.

'선형대수' 카테고리의 다른 글

Properties of determinants (0)	2025.02.10
Orthogonal matrices and Gram-Schmidt (0)	2025.02.10
Projections onto subspaces (0)	2025.02.10
Orthogonal vectors and subspaces (0)	2025.02.10
Matrix spaces; rank 1 (0)	2025.02.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Hyun_Jae

Projection matrices and least squares

1. Projection - Two extreme cases

2. Least Square Method(최소자승법 또는 최소제곱법)

2.1 Outliers in Least Square

2.2 Solution of Least Square

2.3 error vector

'선형대수' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Projection matrices and least squares

1. Projection - Two extreme cases

2. Least Square Method(최소자승법 또는 최소제곱법)

2.1 Outliers in Least Square

2.2 Solution of Least Square

2.3 error vector

'선형대수' 카테고리의 다른 글

'선형대수' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역