[Math] Linear Regression의 normal equation을 위한 선형대수 개념
by 구설구설$ trA = trA^T $
tr는 행렬의 대각 합이다.
한 행렬 A를 전치한다면, 행과 열이 바뀌게 되는데, 그렇지만 행렬의 대각 성분은 바뀌지 않는다.
따라서 전치 행렬의 대각합도 원래 행렬 A와 동일하다.
$A = \begin{pmatrix}
1 & 2 \\
3 & 4\\
\end{pmatrix}$ 일 때,
$A^T = \begin{pmatrix}
1 & 3 \\
2 & 4\\
\end{pmatrix}$이므로 대각합은 모두 5이다.
$ f(A) = {\rm tr}\ A ,\; \nabla_{A}f(A)=B^{T} $
$A = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix}, \quad B = \begin{pmatrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{pmatrix}$ 일 때,
$ AB = \begin{pmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{pmatrix} \begin{pmatrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{pmatrix} = \begin{pmatrix} a_{11}b_{11} + a_{12}b_{21} & a_{11}b_{12} + a_{12}b_{22} \\ a_{21}b_{11} + a_{22}b_{21} & a_{21}b_{12} + a_{22}b_{22} \end{pmatrix} $이고, 따라서
$ f(A) = (a_{11}b_{11} + a_{12}b_{21}) + (a_{21}b_{12} + a_{22}b_{22}) $이기에 A에 대해서 미분한다면
$ \nabla_A f(A) = \begin{pmatrix} b_{11} & b_{21} \\ b_{12} & b_{22} \end{pmatrix} = B^T $를 알 수 있다.
$ {\rm tr}AB = {\rm tr}BA $
$\text{tr}(AB) = \sum_{i=1}^{n} (AB)_{ii}$이고,
$(AB)_{ii} = \sum_{k=1}^{n} A_{ik} B_{ki}$일때
$\text{tr}(AB) = \sum_{i=1}^{n} \sum_{k=1}^{n} A_{ik} B_{ki}$라고 할 수 있다.
마찬가지로
$\text{tr}(BA) = \sum_{i=1}^{n} (BA)_{ii}$이고
$(BA)_{ii} = \sum_{k=1}^{n} B_{ik} A_{ki}$일때
$\text{tr}(BA) = \sum_{i=1}^{n} \sum_{k=1}^{n} B_{ik} A_{ki}$라고 할 수 있다.
위 두 식은 동일하기에
$\sum_{i=1}^{n} \sum_{k=1}^{n} A_{ik} B_{ki} = \sum_{i=1}^{n} \sum_{k=1}^{n} B_{ik} A_{ki}$
$\therefore \text{tr}(AB) = \text{tr}(BA)$
라고 할 수 있다.
$tr(𝐴𝐵𝐶)=tr(𝐶𝐴𝐵)=tr(𝐵𝐶𝐴)$
$ \text{tr}(ABC) = \sum_{i=1}^{n} (ABC)_{ii} $
각 항을 확장해 보면, $(ABC)_{ii} = \sum_{j=1}^{n} \sum_{k=1}^{n} A_{ij} B_{jk} C_{ki}
$
따라서 $ \text{tr}(ABC)$ 는 다음과 같이 쓸 수 있다.
$ \text{tr}(ABC) = \sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{k=1}^{n} A_{ij} B_{jk} C_{ki} $
$ \text{tr}(CAB) $와 $\text{tr}(BCA)$도 같은 방식으로 쓸 수 있다.
$ \text{tr}(BCA) = \sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{k=1}^{n} B_{ij} C_{jk} A_{ki} $
따라서 다음은 성립한다.
$\nabla_{A}\ {\rm tr}AA^TC=CA+C^TA$
$\text{tr}(AA^T C)$에서 \( AA^T \)는 \( A \)와 \( A^T \)의 곱이며, 그 뒤에 \( C \)가 곱해진다.
이때, $A $는 두 위치에 등장한다:
1. \( A \)
2. \( A^T \) (전치된 형태로)
이 식을 \( A \)에 대해 두 번 미분해야 한다.
- 한 번은 원래 형태로 \( A \)
- 한 번은 전치된 형태로 \( A^T \)
첫 번째로, \( A \)에 대한 미분을 하면, \( C \)는 그냥 상수 행렬처럼 취급되어 미분에서 영향을 받지 않는다. 따라서 첫 번째 \( A \)에 대한 미분을 하면 남는 항은 \( CA \)가 된다. 여기서 \( C \)가 남은 이유는 \( A \)와 \( C \)가 곱해진 상태였기 때문이다.
다음으로 \( A^T \)에 대해 미분하면, \( A^T \)에 대한 미분 결과는 \( C^TA \)가 된다. 이는 미분 규칙에 따라 \( A^T \)의 앞에 있는 \( C^T \)가 남기 때문이다.
결국, 다음과 같은 결과가 나온다:
$\nabla_A \ \text{tr}(AA^T C) = CA + C^TA$
블로그의 정보
공부중임
구설구설