본문 바로가기

선형대수

[개념] 대칭행렬의 직교 대각화, 스펙트럼 분해, 2차형식

■ 여기서 나오는 행렬은 모두 대칭행렬이다.

1. 대칭행렬의 직교 대각화(Orthogonal Diagonalization)

■ \( P^{-1}AP = D \)를 만족시키는 가역행렬 \( P \)가 행렬 \( A \)의 고유벡터로 이루어진 행렬일 때,

\( P^{-1}AP = D \)에서 \( P^TAP = D \)가 성립하면 \( n \times n \)행렬 \( A \)는 직교 대각화가 가능하다.

( 또는 \( A = PDP^{-1} \)에서 \( A = PDP^{-1} = PDP^T \)가 성립하면 \( n \times n \)행렬 \( A \)는 직교 대각화가 가능하다.)

■ 여기서 \( P \)는 정규직교벡터로 이루어진 직교행렬(orthogonal matrix)이다. 그러므로 \( A \)를 대각화하는 행렬 \( P \)는 직교행렬의 정의에 따라 \( PP^T = P^TP = I \)와 \( P^{-1} = P^T \)가 성립한다. 그리고 \( P \)의 각 행(열) 벡터가 서로 수직 \( \Leftrightarrow \) 각 행(열) 벡터의 크기가 1이다.

- 만약, 행(열) 벡터가 서로 수직 관계성이 아니면 그때는 그람-슈미트 과정을 통해 기저를 직교(수직)기저로 만들어야 한다.

■ 실수에서 정의된 행렬 \( A \in M_{n, n} \left( \mathbb{R} \right) \)에 대해 직교행렬 \( P \)가 존재한다고 하자. 그리고 \( A = PDP^{-1} \)이고 \( P^{-1} = P^T \)이므로 \( A = PDP^T \)로 나타낼 수 있다.

이때, \( A^T \)는 \( A^T = (PDP^T)^T = PD^TP^T = PDP^T = A \)가 성립한다.

- \( D \)는 대각행렬이므로 \( D^T = D \)

■ 즉, 행렬 \( A \)가 직교대각화 가능하면 \( A \)는 대칭행렬이다. 그리고 역도 성립한다.( 행렬 \( A \)가 대칭행렬이면, \(A \)는 직교대각화 가능하다.)

■ 정리하면, \( A \)가 대칭행렬 \( \Leftrightarrow \) \( A \)가 직교대각화 가능

■ 사실, 대칭행렬에 대한 고윳값과 고유벡터의 특성은 

- (1) 대칭행렬의 고윳값은 전부 실수(real number)이다. (= 허수가 나오지 않는다.)

- (2) 대칭행렬의 고유벡터는 직각을 이룬다. (= 대칭행렬의 고유벡터는 직교벡터이다.)

■ 행렬 \( P \)는 \( A \)의 고유벡터들이 열벡터로 구성된 행렬이므로, 대칭행렬 \( A \)의 고유벡터인 직교벡터를 정규화하여 대칭행렬 \( A \)의 고유벡터를 정규직교벡터로 만든다면, 당연히 \( P \)는 정규직교벡터로 구성된 행렬이므로직교행렬이 된다.

■ 예를 들어, 대칭행렬 \( A = \begin{pmatrix} 2 & 0 & 1 \\ 0 & 3 & 0 \\ 1 & 0 & 2 \end{pmatrix} \)를 직교 대각화하려고 한다면, 대칭행렬 \( A \)를 직교 대각화하는 행렬인 직교행렬 \( P \)를 찾아야 한다.

■ 대칭행렬 \( A \)의 고유방정식은 \( (3 - \lambda)(\lambda^2 - 4 \lambda + 3) = -( \lambda - 1)( \lambda - 3)^2 = 0 \)이므로 \( \lambda = 1 \) 또는 \( \lambda = 3 \)이다.

\( \lambda = 1 \)에 대응하는 고유벡터는 \( (A - 1 \lambda) \mathbf{x} = 0 \Leftrightarrow \begin{pmatrix} 1 & 0 & 1 \\ 0 & 2 & 0 \\ 1 & 0 & 1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \)이므로 \( x = -z \)이다. 따라서 \( \lambda = 1 \)에 대응하는 간단한 고유벡터 하나는 \( \mathbf{x} = \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix} \)이다.

그러므로 \( \lambda = 1 \)에 대응되는 고유공간은 \( \mathbf{x} = \begin{pmatrix} 1 \\ 0 \\ -1 \end{pmatrix} \)로 생성되는 1차원 부분공간이다.

\( \lambda = 3 \)에 대응하는 고유벡터는 \( (A - 3 \lambda) \mathbf{x} = 0 \Leftrightarrow \begin{pmatrix} -1 & 0 & 1 \\ 0 & 0 & 0 \\ 1 & 0 & -1 \end{pmatrix} \begin{pmatrix} x \\ y \\ z \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix} \)이므로 \( x = -z \)이다. 따라서 \( \lambda = 3 \)에 대응하는 고유벡터는 \( \mathbf{x} = \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} \)과 \( \mathbf{x} = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} \)이다.

그러므로 \( \lambda = 3 \)에 대응되는 고유공간은 서로 독립인 고유벡터  \( \mathbf{x} = \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} \)과 \( \mathbf{x} = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} \)로 생성되는 공간이며, 두 개의 독립인 벡터가 만들어내는 공간은 2차원 공간이므로 \( \lambda = 3 \)에 대응되는 고유공간은 \( \mathbf{x} = \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix} \)과 \( \mathbf{x} = \begin{pmatrix} 0 \\ 1 \\ 0 \end{pmatrix} \)로 생성되는 2차원 부분공간이다.

그리고 \( \lambda = 1, 3, 3 \)으로 3에서 중근을 갖지만, \( 3 \times 3 \) 대칭행렬 \( A \)가 3개의 서로 독립적인 고유벡터를 가지므로 대칭행렬 \( A \)는 대각화 가능하다는 것을 알 수 있다.

■ 이때, 각 \( \lambda \)에 대응되는 고유벡터들의 서로에 대한 내적값은 0으로 대칭행렬 \( A \)의 고유벡터들은 직교벡터임을 알 수 있다. 단, 고유벡터의 크기가 1이 아니므로 '정규'직교벡터가 아니다.

- 만약, 고유벡터들이 서로 직교하지 않았다면, 그람-슈미트 과정을 통해 고유벡터들이 직교하도록 만들어야 한다.

각 고유벡터들을 정규직교벡터로 만든다면, 고유벡터 \( \mathbf{v}_1 = \dfrac{1}{\sqrt{2}} (1, 0, -1)^T, \; v_2 = \dfrac{1}{\sqrt{2}} (1, 0, 1)^T, \; v_3 = (0, 1, 0)^T \)가 된다.

■ 따라서 대칭행렬 \( A \)를 직교대각화하는 행렬 \( P \)는 \( [ \mathbf{v}_1, \mathbf{v}_2, \mathbf{v}_3] \)이 된다. \(
P = \dfrac{1}{\sqrt{2}}
\begin{pmatrix}
1 & 1 & 0 \\
0 & 0 & \sqrt{2} \\
-1 & 1 & 0
\end{pmatrix}
\)
■ \( A \)를 직교대각화하는 행렬 \( P \)를 통해 대각행렬 \( D \)를 계산할 수 있다.
\(
P^T A P = \dfrac{1}{2}
\begin{pmatrix}
1 & 0 & -1 \\
1 & 0 & 1 \\
0 & \sqrt{2} & 0
\end{pmatrix}
\begin{pmatrix}
2 & 0 & 1 \\
0 & 3 & 0 \\
1 & 0 & 2
\end{pmatrix}
\begin{pmatrix}
1 & 1 & 0 \\
0 & 0 & \sqrt{2} \\
-1 & 1 & 0
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 & 0 \\
0 & 3 & 0 \\
0 & 0 & 3
\end{pmatrix} = D
\)

예시를 통해 알 수 있는 것은 \( n \times n \) 대칭행렬 \( A \)의 각 \( \lambda \)에 대응되는 고유공간이 서로 직교한다는 것이다. 

- 이 예에서 \( \lambda = 1 \)에 대응되는 고유공간은 \( \mathbf{v}_1 = \dfrac{1}{\sqrt{2}} (1, 0, -1)^T \)의 스칼라배에 해당되는 벡터들이 모인 1차원 공간으로 전체 공간 \( \mathbb{R}^3 \)의 부분공간이다.

- 이때 \( \mathbf{v}_1 = \dfrac{1}{\sqrt{2}} (1, 0, -1)^T \)의 모든 스칼라배에 해당되는 벡터들은 \( \lambda = 3 \)에 대응되는 고유벡터인 \( v_2 = \dfrac{1}{\sqrt{2}} (1, 0, 1)^T, \; v_3 = (0, 1, 0)^T \)와 각각 내적했을 때 값이 0이 된다.

- \( \lambda = 3 \)에 대응되는 고유벡터인 \( v_2 = \dfrac{1}{\sqrt{2}} (1, 0, 1)^T, \; v_3 = (0, 1, 0)^T \)가 만드는 공간은 2차원 공간이므로 \( \lambda = 1 \)에 대응되는 1차원 고유공간과 \( \lambda = 3 \)에 대응되는 2차원 고유공간은 서로 직교한다는 것을 알 수 있다.

- 또한, 이 예시의 고유벡터는 \( \mathbb{R}^3 \)의 정규직교기저이므로 두 고유공간의 합은 전체 공간 \( \mathbb{R}^3 \)이 된다. 이 예시의 고유벡터 3개는 서로 독립인 정규직교기저이므로 전체 공간 \( \mathbb{R}^3 \)을 생성하기 때문이다.

 

2. 스펙트럼 분해(Spectral Decomposition)

행렬 \( A \)가 직교 대각화 가능한 대칭행렬일 때, 대칭행렬 \( A \)를 직교 대각화하는 직교행렬 \( P \)가 \( P = [ \mathbf{u}_1 \; \mathbf{u}_2 \; \cdots \; \mathbf{u}_n ] \)이라고 하자. 

\( \lambda_1, \; \lambda_2 \; \cdots \; \lambda_n \)은 대칭행렬 \( A \)의 고유벡터 \( \mathbf{u}_1, \; \mathbf{u}_2, \; \cdots \; \mathbf{u}_n \)에 대응하는 대칭행렬 \( A \)의 고윳값이라고 했을 때,

\( P^{-1}AP = D \Rightarrow A = PDP^{-1} = PDP^T \)이며, \( A = PDP^T \)를 전개한 형태는 다음과 같다. 

\( A = PDP^T = \begin{bmatrix} \mathbf{u}_1 & \cdots & \mathbf{u}_n \end{bmatrix} \begin{bmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{bmatrix} \begin{bmatrix} \mathbf{u}_1^T \\ \vdots \\ \mathbf{u}_n^T \end{bmatrix} = \begin{bmatrix} \lambda_1 \mathbf{u}_1 & \cdots & \lambda_n \mathbf{u}_n \end{bmatrix} \begin{bmatrix} \mathbf{u}_1^T \\ \vdots \\ \mathbf{u}_n^T \end{bmatrix} = \lambda_1 \mathbf{u}_1 \mathbf{u}^T_1 + \lambda_2 \mathbf{u}_2 \mathbf{u}^T_2 + \cdots + \lambda_n \mathbf{u}_n \mathbf{u}^T_n \) 

행렬 \( A \)가 직교 대각화 가능한 대칭행렬일 때, \(
A = \lambda_1 \mathbf{u}_1 \mathbf{u}_1^T + \lambda_2 \mathbf{u}_2 \mathbf{u}_2^T + \cdots + \lambda_n \mathbf{u}_n \mathbf{u}_n^T
\)로 나타낸 것을 \( A \)의 스펙트럼 분해라고 한다.

- 여기서 \( A \)의 고유벡터 \( \mathbf{u}_k \)는 \( n \times 1 \)이므로 \( \mathbf{u}_k \mathbf{u}^T_k \)는 \( n \times n \)행렬이다.

■ 그리고  \( \mathbf{u}_k \mathbf{u}^T_k \)는 정사영행렬(=투영행렬(projection matrix))이다.

- \( \mathbf{u}_k \)는 원래 대칭행렬 \( A \)를 정규 대각화시키는 직교행렬 \( P \)의 열벡터이다. 직교행렬의 각 행(열)벡터는 서로 수직 \( \Leftrightarrow \) 각 행(열)벡터의 크기가 1이며 

- \( \mathbf{u}_k \mathbf{u}^T_k \)는 대칭행렬이 되고, 

- \( P = \mathbf{u}_k \mathbf{u}^T_k \)라고 한다면 \( P^2 = \left( \mathbf{u}_k \mathbf{u}^T_k \right) \left( \mathbf{u}_k \mathbf{u}^T_k \right) = \mathbf{u}_k \left( \mathbf{u}^T_k \mathbf{u}_k \right) \mathbf{u}^T_k \)이며, 벡터의 크기가 1이므로 \( \mathbf{u}^T_k \mathbf{u}_k = 1 \)이 된다. 

- 그러므로 \( P^2 = \mathbf{u}_k \mathbf{u}^T_k = P \)가 된다.

- 이를 통해 \( \mathbf{u}_k \mathbf{u}^T_k \)는 정사영행렬(=투영행렬(projection matrix))임을 알 수 있다.

■ \( k = 1, 2, \cdots, n \)이라고 했을 때, 식에서 투영(정사영)행렬  \( \mathbf{u}_k \mathbf{u}^T_k \)가 적용되는 대상은 \( \lambda_k \)이다.

즉, \( \lambda_k \mathbf{u}_k \mathbf{u}^T_k \)의 관계에서 \( \mathbf{u}_k \mathbf{u}^T_k \)는 고윳값 \( \lambda_k \)에 대응되는 고유공간으로 떨어지는 정사영변환이라고 할 수 있다.

■ 그리고 투영행렬의 성질 \( P^2 = P \)을 이용하면 대칭행렬 \( A \)의 스펙트럼 분해로부터 대칭행렬의 거듭제곱 \(
A^k = \lambda^k_1 \mathbf{u}_1 \mathbf{u}_1^T + \lambda_2^k \mathbf{u}_2 \mathbf{u}_2^T + \cdots + \lambda^k_n \mathbf{u}_n \mathbf{u}_n^T
\), \( \;k = 1, 2, 3, \cdots \)이 성립한다.

 

3. 2차형식(Quadratic forms)

3.1 두 변수에 관한 2차형식

■ 2차형식이란 문자(변수)가 2개씩 곱해져 있는 것들의 합을 의미한다.

■ 그러므로 두 변수 \( x, y \)에 관한 2차형식은 \( a_1 x + a_2 y)^2 = a^2_1 x^2 + 2a_1 a_2 xy + a^2_2 y^2 \)이 된다. 

- 이때, \( x^2 \)은 \( x^2 = x \cdot x \), \( y^2 \)은 \( y^2 = y \cdot y \)이므로 문자 2개가 곱해진 형태이다.

- \( xy \)도 문자 2개가 곱해진 형태이다.

■ \( a_1, a_2 \)는 숫자이므로 \( a^2_1 = a, \; a_1 a_2 = b, \; a^2_2 = c \)라고 하면, 두 변수 \( x, y \)에 관한 2차형식은 \( ax^2 + 2bxy + cy^2 \)이며, 이를 행렬의 형태로 표현하면

\( ax^2 + 2bxy + cy^2 \Leftrightarrow \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a & b \\ b & c \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} \)가 된다. 이때 \( 2 \times 2 \)행렬은 대칭행렬이 되는 것을 볼 수 있다. 또한 \( 2 \times 2 \)행렬의 대각성 성분(원소)은 제 2차항의 계수이며, 주대각선을 제외한 성분은 모두 \( xy \)항인 계수의 \( \times \dfrac{1}{2} \)임을 알 수 있다.

■ \( \mathbf{v} = \begin{pmatrix} x \\ y \end{pmatrix}, \; A = \begin{pmatrix} a & b \\ b & c \end{pmatrix} \)라고 한다면, \( \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a & b \\ b & c \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} \)는 \( \mathbf{v}^T A \mathbf{v} \)로 나타낼 수 있다.

\( \mathbf{v}^T A \mathbf{v} \)에서 벡터의 내적 \( v^Tw = v \circ w \)임을 이용하면, \( \mathbf{v}^T A \mathbf{v} = \mathbf{v} \circ \left( A \mathbf{v} \right) \)이며, 내적 \( v \circ w = w \circ v \)임을 이용하면 \( \left( A \mathbf{v} \right) \circ \mathbf{v} \)으로 나타낼 수 있다. 

이때, \( \left( A \mathbf{v} \right) \circ \mathbf{v} \)은 내적이므로 결과는 스칼라를 얻게 된다. 이 스칼라를 \( \alpha \)라고 하자.

■ 정리하면, 두 변수에 관한 2차형식은 \( ax^2 + 2bxy + cy^2 = \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a & b \\ b & c \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} \Leftrightarrow \mathbf{v}^T A \mathbf{v} = \mathbf{v} \circ \left( A \mathbf{v} \right) = \left( A \mathbf{v} \right) \circ \mathbf{v} \)이며,

■ \( n \times n \) 정방행렬 \( A \)에 동일한 벡터 \( \mathbf{v} \)를 곱해 스칼라 \( \alpha \)를 얻는 \( \mathbf{v}^T A \mathbf{v} = \mathbf{v} \circ \left( A \mathbf{v} \right) = \left( A \mathbf{v} \right) \circ \mathbf{v} = \alpha \)를 행렬 \( A \)의 2차형식(이차식)이라고 한다. 이는 3.2 \( n \)개의 변수에 관한 2차형식에서도 마찬가지이다.

3.2 \( n \)개의 변수에 관한 2차형식

■ \( n \)개의 변수에 \( x_1, x_2, \cdots, x_n \)에 관한 2차형식은 마찬가지로 \( \begin{pmatrix} x_1 & x_2 & \cdots & x_n \end{pmatrix} A \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} = \mathbf{v}^T  A \mathbf{v} \)로 나타내며 \( A \)는 대칭행렬이다.

- 이때 대칭행렬 \( A \)의 주대각선의 성분은 제 2차항의 계수이며, 주대각선을 제외한 성분은 \( x_1 x_2, x_1, x_3, \cdots \)항의 계수의 \( \dfrac{1}{2} \)이다.

- 예를 들어, \( n \)개의 변수에 관한 2차식에서 \( x_1 x_2 \)항의 계수가 \( 2d \), \( x_1 x_3 \)항의 계수가 \( 2e \)가 된다면,

- 대칭행렬 \( A \)의 1행 2열의 원소는 \( d \)이며, 1행 2열과 대칭인 2행 1열의 원소도 \( d \)이다.

- 마찬가지로 1행 3열의 원소는 \( e \)이며, 1행 3열과 대칭인 3행 1열의 원소도 \( e \)이다.

■ 예를 들어 \( x^2_1 + x^2_2 + 3x^2_3 + 4 x_1 x_2 + 6 x_2 x_3 \)이라면, \( x_1 x_3 \)항의 계수는 0이므로 이 예의 2차형식은 \( \mathbf{v}^T  A \mathbf{v} = \begin{pmatrix} x_1 & x_2 & x_3 \end{pmatrix} \begin{pmatrix} 1 & 2 & 0 \\ 2 & 1 & 3 \\ 0 & 3 & 3 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} \) 

3.3 2차형식의 부호

2차형식의 \( \mathbf{v}^T A \mathbf{v} \)의 결과는 스칼라이며, 모든 가능한 벡터 \( \mathbf{v} \)에 대해 양수 스칼라 또는 음수 스칼라 또는 0을 생성할 수 있다. 

\( \mathbf{v}^T A \mathbf{v} \)의 결과인 스칼라의 부호는 전적으로 고윳값 \( \lambda \)에 의해 결정된다.

고유방정식 \( A \mathbf{v} = \lambda \mathbf{v} \)의 양변 좌측에 \( \mathbf{v}^T \)를 곱하면 \( \mathbf{v}^T A \mathbf{v} = \lambda \mathbf{v}^T \mathbf{v} \)이며, \( \mathbf{v}^T \mathbf{v} \)는 자기자신에 대한 내적이므로 \( \mathbf{v}^T A \mathbf{v} = \lambda \| \mathbf{v} \|^2 \)으로 나타낼 수 있다.

\( A \mathbf{v} = \lambda \mathbf{v} \)

\( \mathbf{v}^T A \mathbf{v} = \lambda \mathbf{v}^T \mathbf{v} \)

\( \mathbf{v}^T A \mathbf{v} = \lambda \| \mathbf{v} \|^2 \)

\( \mathbf{v}^T A \mathbf{v} = \lambda \| \mathbf{v} \|^2 \)에서 \( \| \mathbf{v}^T \mathbf{v} \|^2 = \| \mathbf{v} \|^2 \)은 벡터의 크기이므로 음수가 될 수 없다. 영벡터는 무시한다면 양수라고 할 수 있다.

즉 \( \mathbf{v}^T A \mathbf{v} \)의 결과는 \( \lambda \| \mathbf{v} \|^2 \)이며, \( \lambda \| \mathbf{v} \|^2 \)값이 스칼라가 되므로, 스칼라의 부호는 전적으로 \( A \)의 고윳값 \( \lambda \)에 의해 결정된다. 

■ 위의 과정은 하나의 고윳값에 대한 고유방정식이다. 이번에는 예를 들어, \( A \)의 고윳값 \( \lambda_1 \)에 대응하는 고유벡터가 \( \mathbf{v}_1 \)이고 \( \lambda_2 \)에 대응하는 고유벡터가 \( \mathbf{v}_2 \)라고 했을 때, 각각에 대해 다음과 같이 성립할 것이다.

\( \mathbf{v}^T_1 A \mathbf{v}_1 = \lambda_1 \| \mathbf{v}_1 \|^2 \)

\( \mathbf{v}^T_2 A \mathbf{v}_2 = \lambda_2 \| \mathbf{v}_2 \|^2 \)

\( \mathbf{v}^T A \mathbf{v} = \lambda \| \mathbf{v} \|^2 \)식이 각 고유벡터 고윳값 쌍에 대해 유효하면, 모든 고유벡터 고윳값 쌍의 조합에 대해 유효하다. 이는 다음과 같이 나타낼 수 있다.

\( \left( \mathbf{v}_1 + \mathbf{v}_2 \right)^T A \left( \mathbf{v}_1 + \mathbf{v}_2 \right) = \left( \lambda_1 + \lambda_2 \right) \| \left( \mathbf{v}_1 + \mathbf{v}_2 \right) \|^2 \)

- 이 식도 결국, \( \mathbf{v}^T A \mathbf{v} = \lambda \| \mathbf{v} \|^2 \)의 형태이며,

- 2차형식의 결과값인 스칼라의 부호는 고윳값의 부호에 의해 결정된다는 것이 변하지 않음을 확인할 수 있다.

■ 고윳값이 가질 수 있는 부호에 대해 4가지 경우로 나눌 수 있다.

- (1) 모든 고윳값이 양수

모든 고윳값이 양수라면, 식의 우변은 항상 양수이므로 가능한 모든 벡터 \( \mathbf{v} \)에 대해 \( \mathbf{v}^T A \mathbf{v} \)은 항상 양수가 된다.

- (2) 고윳값이 양수이거나 0

- 고윳값이 양수이거나 0이면, \( \mathbf{v}^T A \mathbf{v} \)은 음수가 아니다. 

- 만약, 모든 고윳값이 \( \lambda = 0 \)이며 \( n \times n \)행렬 \( A \)가 서로 독립적인 \( n \)개의 고유벡터를 가지지 않는다면(=특이행렬이라면) \( \mathbf{v}^T A \mathbf{v} \)의 값은 0이 될 것이다.

- (3) 고윳값이 음수이거나 0

- 고윳값이 음수이거나 0이면, \( \mathbf{v}^T A \mathbf{v} \)은 0이거나 음수이다.

- (4) 모든 고윳값이 음수

 모든 고윳값이 음수라면, 식의 우변은 항상 음수이므로 가능한 모든 벡터 \( \mathbf{v} \)에 대해 \( \mathbf{v}^T A \mathbf{v} \)은 항상 음수가 된다.

3.4 양정치 행렬과 2차형식

■ 2차형식 \( \mathbf{v}^T A \mathbf{v} \)에 대해 영벡터는 제외하고(\( \mathbf{v} \neq 0 \)), 모든 가능한 벡터 \( \mathbf{v} \)에 대해서 \( \mathbf{v}^T A \mathbf{v} > 0 \)일 때, 양정치(positive definite)라 하고, 2차형식  \( \mathbf{v}^T A \mathbf{v} > 0 \)가 되게 하는 행렬 \( A \)를 양정치 행렬이라고 한다.

■ 3.3에서 2차형식의 결과값의 부호는 고윳값에 의해 결정되며, \( \mathbf{v}^T A \mathbf{v} > 0 \)라는 것은 모든 고윳값이 양수라는 것이다.

■ 그러므로, 대칭행렬 \( A \)가 양정치 행렬이기 위한 필요충분조건은 대칭행렬 \( A \)의 모든 고윳값이 양수라고 할 수 있다. 또한, 대칭행렬 \( A \)의 고윳값이 모두 양수라는 것은 \( A \)의 주 부분행렬의 행렬식 값이 모두 양수임을 의미한다.

정리하면, 대칭행렬 \( A \)가 양정치 행렬 \( \Leftrightarrow \) 대칭행렬 \( A \)의 고윳값이 모두 양수 \( \Leftrightarrow \) \( A \)의 주 부분행렬의 행렬식 값이 모두 양수

cf) 주 부분행렬이란

- 만약 다음과 행렬 \( A \)가 \( n \times n \) 크기를 가지는 정방행렬이면, \( A \)의 주 부분행렬이란 \( r = 1, 2, \cdots, n \)에 대해서 처음 \( r \)행과 \( r \)열로서 구성한 부분행렬을 의미한다.

3.5 양의 (준)정부호

■ 행렬과 그 행렬의 전치의 곱으로 표현할 수 있는 모든 행렬 \( A^T A \)에 대한 2차형식은 양의 정부호 또는 양의 준정부호가 보장된다. 즉 \( A^TA = S \)라고 했을 때, 행렬 \( S \)는 음이 아닌 고윳값을 갖는다.

- 양의 정부호는 이차식 \( \mathbf{v}^T A \mathbf{v} \)의 값이 양수이며, 모든 고윳값이 양수인 경우를,

- 양의 정부호는 이차식의 값이 음수가 아닌 경우로, 고윳값이 양수이거나 0인 상황이다.

cf) 공분산 행렬은 \( A^T A \)로 정의된다. 그러므로 모든 공분산 행렬은 음이 아닌 고윳값을 갖는다.

\( A^T A \)에 대한 2차형식은 \( \mathbf{v}^T S \mathbf{v} = \mathbf{v}^T \left( A^T A \right) \mathbf{v} = \left( \mathbf{v}^T A^T \right) \left( A \mathbf{v} \right) = \left( A \mathbf{v} \right)^T \left( A \mathbf{v} \right) = \| A \mathbf{v} \|^2 \)이 된다. 크기는 음수가 될 수 없으며, \( \mathbf{v} = 0 \)일 때만 0이 될 수 있다.

3.6 2차형식의 최댓값과 최솟값

■ \( n \times n \) 대칭행렬 \( A \)에 대해, \( A \)가 가지는 고윳값들의 크기 순서가 \( \lambda_1 \; \leq \; \lambda_2 \; \leq \; \cdots \; \leq \; \lambda_n \)이라고 하자. 그리고 2차형식 \( \mathbf{v}^T A \mathbf{v} \)에서 벡터 \( \mathbf{v} \)의 크기가 1 \( \| \mathbf{v} \| = 1\)로 제약되었다면

\( \lambda_1 \; \leq \; \mathbf{v}^T A \mathbf{v} \; \leq \lambda_n \). 즉, 2차형식의 최솟값은 \( \lambda_1 \)이고 최댓값은 \( \lambda_n \)이다.

■ 예를 들어, 2차형식이 \( ax^2 + 2bxy + cy^2 \)이라고 하면 \( ax^2 + 2bxy + cy^2 = \begin{pmatrix} x & y \end{pmatrix} \begin{pmatrix} a & b \\ b & c \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} = \mathbf{v}^T A \mathbf{v} \)이므로 \( \mathbf{v} = \begin{pmatrix} x \\ y \end{pmatrix} \)이다.

■ 이때, 벡터 \( \mathbf{v} \)의 크기가 1로 제약되었다면, \( \| \mathbf{v} \| = 1 \Leftrightarrow \sqrt{x^2+y^2} = 1 \)이며 양변에 제곱을 취하면 \( x^2+y^2 = 1 \)이 된다. 즉, \( \| \mathbf{v} \| = 1\)로 제약되었다는 것은 \( x^2+y^2 = 1 \)을 의미한다.

■ \( 2 \times 2 \)행렬은 대칭행렬이므로 직교 대각화를 적용할 수 있다. \( \mathbf{v}^T A \mathbf{v} \)에 직교 대각화를 적용했을 때의 결과가 \( \mathbf{w}^T D \mathbf{w} = \lambda_1 X^2 + \lambda_2 Y^2 \)가 된다.

- 이 것에 대한 내용은 4. 직교 대각화를 이용한 회전변환에

■ 이제, 2차형식 \( ax^2 + 2bxy + cy^2 \)의 최대 및 최소를 구하는 문제는 \( \lambda_1 X^2 + \lambda_2 Y^2 \)의 최대 및 최소를 구하는 문제와 동일하다.

\( A \)가 가지는 고윳값들의 크기 순서가 \( \lambda_1 \; \leq \; \lambda_2 \; \leq \; \cdots \; \leq \; \lambda_n \)라는 가정 하에 \( \lambda_1 \leq \lambda_2 \)가 된다.

\( \lambda_1 \leq \lambda_2 \)임을 확인하는 방법은

\( \lambda_1 X^2 + \lambda_1 Y^2 \leq \lambda_1 X^2 + \lambda_2 Y^2 \leq \lambda_2 X^2 + \lambda_2 Y^2 \)가 성립함을 보이면 된다. 

- 1) \( \lambda_1 X^2 + \lambda_1 Y^2 \leq \lambda_1 X^2 + \lambda_2 Y^2 \)을 확인하면, \( \lambda_1 X^2 - \lambda_1 X^2 + \lambda_1 Y^2 \leq \lambda_2 Y^2 \Rightarrow \lambda_1 Y^2 \leq \lambda_2 Y^2 \)이므로 \( \lambda_1 \leq \lambda_2 \)가 된다.

- 2) \( \lambda_1 X^2 + \lambda_2 Y^2 \leq \lambda_2 X^2 + \lambda_2 Y^2 \)을 확인하면, \( \lambda_1 X^2 + \lambda_2 Y^2 - \lambda_2 Y^2 \leq \lambda_2 X^2 \Rightarrow \lambda_1 X^2 \leq \lambda_2 X^2 \)이므로 \( \lambda_1 \leq \lambda_2 \)가 된다.

- 따라서 \( \lambda_1 X^2 + \lambda_1 Y^2 \leq \lambda_1 X^2 + \lambda_2 Y^2 \leq \lambda_2 X^2 + \lambda_2 Y^2 \)는 참이다.

\( \lambda_1 X^2 + \lambda_1 Y^2 \leq \lambda_1 X^2 + \lambda_2 Y^2 \leq \lambda_2 X^2 + \lambda_2 Y^2 \Rightarrow \lambda_1 \left( X^2 + Y^2 \right) \; \leq \; \lambda_1 X^2 + \lambda_2 Y^2 \; \leq \; \lambda_2 \left( X^2 + Y^2 \right) \)이며,

■ \( \mathbf{v} = P \mathbf{w} \)에서 \( P \)는 축회전 행렬이다. 제약 조건  \( \| \mathbf{v} \| = 1 \Leftrightarrow x^2 + y^2 = 1 \)이면 \( \| P \mathbf{w} | = 1 \Rightarrow \| \mathbf{w} \| = 1 \)이 된다. 

- 직교행렬 성질 중 \( \| A \mathbf{u} \| = \| \mathbf{u} \| \)임을 이용

■ \( \mathbf{w} \)는 회전변환으로 변한 축이므로 \( \mathbf{w} = \begin{pmatrix} X \\ Y \end{pmatrix} \)이다. 그러므로 \( \| \mathbf{w} \| = 1 \Leftrightarrow \sqrt{X^2 + Y^2} = 1 \Leftrightarrow X^2 + Y^2 = 1 \) 

■ 따라서 \( \lambda_1 \left( X^2 + Y^2 \right) \; \leq \; \lambda_1 X^2 + \lambda_2 Y^2 \; \leq \; \lambda_2 \left( X^2 + Y^2 \right) \) \)에서 \( X^2 + Y^2 = 1 \)이므로

■ \( \lambda_1 \; \leq \; \lambda_1 X^2 + \lambda_2 Y^2 \; \leq \; \lambda_2 \)가 성립한다. 그러므로 이 예에서 2차형식의 최솟값은 \( \lambda_1 \), 최댓값은 \( \lambda_2 \)

■ 예시 \( \lambda_1 \; \leq \; \lambda_1 X^2 + \lambda_2 Y^2 \Leftrightarrow \mathbf{v}^T A \mathbf{v} \; \leq \; \lambda_2 \)에서 최솟값 \( \lambda_1 \)과 최댓값 \( \lambda_2 \)를 계산하는 방법은 \( \lambda_1 \)에 대응하는 고유벡터, \( \lambda_ 2 \)에 대응하는 고유벡터를 \( \mathbf{v} \)에 넣어서 확인할 수 있다.

- 이때 \( \lambda_1, \lambda_2 \)는 단위고유벡터이다.

■ \( \mathbf{v} \)에 단위고유벡터를 넣으면 고윳값과 고유벡터의 정의에 의해 \( \mathbf{v}^T A \mathbf{v} = \mathbf{v}^T \lambda \mathbf{v} \)가 된다. 이때 \( \lambda \)는 상수이므로 

\( \lambda \mathbf{v}^T \mathbf{v} \)로 나타낼 수 있고, \( v^Tw = v \circ w \)임을 이용하면,

\( \lambda \mathbf{v}^T \mathbf{v} = \lambda \mathbf{v} \circ \mathbf{v} \)이며, 자기자신의 내적은 크기의 제곱이므로, \( \mathbf{v}^T A \mathbf{v} \)는 \( \mathbf{v}^T A \mathbf{v} = \lambda \| \mathbf{v} \|^2 \)가 된다. 이때, \( \| \mathbf{v} \| = 1 \)이라는 제약조건으로 \( \mathbf{v}^T A \mathbf{v} = \lambda \)가 된다.

이렇게 \( \mathbf{v} \)에 단위고유벡터를 넣으면 2차형식은 고윳값 \( \lambda \)를 갖는다. 이때 최댓값인 \( \lambda_2 \)에 대응하는 단위고유벡터를 \( \mathbf{v} \)에 넣으면 최댓값 \( \lambda_2 \)를, 최솟값인 \( \lambda_1 \)에 대응하는 단위고유벡터를 \( \mathbf{v} \)에 넣으면 최솟값 \( \lambda_1 \)을 구할 수 있다.

■ 예를 들어, 제약조건 \( \| \mathbf{v} \| = 1 \Leftrightarrow x^2_1 + x^2_2 = 1 \)이라고 했을 때, 2차형식 \( x^2_1 + x^2_2 +4 x_1 x_2 \)의 최댓값과 최솟값, 그리고 최댓값과 최솟값이 나타내는 \( x_1, x_2 \)는

- 먼저, 2차형식을 행렬로 표현하면 \( \begin{pmatrix} x_1 & x_2 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 2 & 1 \end{pmatrix} \begin{pmatrix} x_1 \\ y_2 \end{pmatrix} \). 여기서 \( 2 \times 2 \) 대칭행렬을 \( A \)라고 하자.

- \( A \)의 고유방정식은 \( \lambda^2 - 2 \lambda -3 = 0 \)이므로 \( \lambda = -1, 3 \)이다. 그러므로 최댓값은 3, 최솟값은 -1이다.

- \( \lambda = -1, 3 \) 각각에 대응하는 단위고유벡터를 구하면 \( \lambda = 3 \)에 대응하는 단위고유벡터는 \( \dfrac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ 1 \end{pmatrix} \)이고

- \( \lambda = -1 \)에 대응하는 단위고유벡터는 \( \dfrac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ -1 \end{pmatrix} \)이다. 

- \( \mathbf{v}^T A \mathbf{v} \)에서 \( \mathbf{v} = \left( x_1, x_2 \right) \)에 직접 \( \lambda = 3 \)에 대응하는 단위고유벡터와 \( \lambda = -1 \)에 대응하는 단위고유벡터를 넣어 계산을 수행하면, 다음과 같이 \( \lambda = 3 \), \( \lambda = -1 \)이 나오는 것을 확인할 수 있다.

- 다시 말해, 이렇게 \( \mathbf{v} \)에 단위고유벡터를 넣으면 2차형식은 고윳값 \( \lambda \)를 갖는다. 이때 최댓값인 \( \lambda_2 \)에 대응하는 단위고유벡터를 \( \mathbf{v} \)에 넣으면 최댓값 \( \lambda_2 \)를, 최솟값인 \( \lambda_1 \)에 대응하는 단위고유벡터를 \( \mathbf{v} \)에 넣으면 최솟값 \( \lambda_1 \)을 구할 수 있다.

 

참고) 양의 정부호 행렬 (positive definite matrix) - 공돌이의 수학정리노트 (Angelo's Math Notes)