← All Articles

Bishop PRML - Ch2. Probability Distributions (3)

Posted on

The Gaussian Distribution

  • Gaussian distribution

    • 가우시안 분포의 핵심은, exponent term이 quadratic form인 분포라는 것
      (정규화가 불가능한 경우와, 복소수 공간을 고려하지 않은 경우라면 위의 내용만 성립할 경우 항상 가우시안 분포임)
    • univariate Gaussian distribution

      • N(xμ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}\mathcal{N}(x{\mid}\mu,\sigma^2) = {1\over{(2\pi\sigma^2)^{1/2}}}\exp\left\{-{1\over{2\sigma^2}}(x-\mu)^2\right\}
    • multivariate Gaussian distribution

      • N(xμ,Σ)=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}\mathcal{N}(\mathbf{x}{\mid}\boldsymbol{\mu},\boldsymbol{\Sigma}) = {1\over{(2\pi)^{D/2}}}{1\over{\lvert\boldsymbol{\Sigma}\rvert^{1/2}}}\exp\left\{-{1\over{2}}(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}
    • CLT (central limit theorem)

      • 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워짐
      • 때문에, 다양한 경우에 대하여 가장 빈번하게 쓰이는 분포
    • Mahalanobis distance

      • Δ2=(xμ)TΣ1(xμ)\boldsymbol{\Delta}^2 = (\mathbf{x} - \boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu})
      • Gaussian distribution의 exponential항
      • Euclidian distance를 분산(공분산)으로 나눈 거리
      • normalized된 Euclidian distance라고 생각하면 좋음
      • 이론적으로 중요한 내용은 아니지만, Mahalanobis distance를 구할 때 full rank가 아닌 경우 inverse covariance matrix를 구하기 어려움
        때문에, 실용적으로는 Moore-Penrose pseudoinverse를 이용함
        pseudoinverse는 SVD(singular value decomposition을 통하여 아래와 같이 구할 수 있음)

        • DM2=(xμ)TΣ1(xμ)XD=USVTΣ=XDTXD=VSUTUSVT=VSSVTΣ+=VS+S+VTDM2=(xμ)TΣ1(xμ)=(xμ)TVS+S+VT(xμ)={(xμ)TVS+}{(xμ)TVS+}T\mathbf{D}_M^2 = (\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\\ \overline{\mathbf{X}_{D}} = \mathbf{USV}^\mathsf{T}\\ \boldsymbol{\Sigma} = \overline{\mathbf{X}_{D}}^\mathsf{T}\overline{\mathbf{X}_{D}} = \mathbf{VSU}^\mathsf{T}\mathbf{USV}^\mathsf{T} = \mathbf{VSSV}^\mathsf{T}\\ \boldsymbol{\Sigma}^+ = \mathbf{VS}^+\mathbf{S}^+\mathbf{V}^\mathsf{T} D_M^2 = (\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) = (\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\mathbf{VS}^+\mathbf{S}^+\mathbf{V}^\mathsf{T}(\mathbf{x}-\boldsymbol{\mu})\\ = \{(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\mathbf{VS}^+\}\{(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\mathbf{VS}^+\}^\mathsf{T}
    • covariance matrix

      • covariance matrix Σ\boldsymbol{\Sigma}는 symmetric & positive semidefinite
      • eigenvalue, eigenvector

        • Σui=λui\boldsymbol{\Sigma}\mathbf{u}_i = \lambda\mathbf{u}_i (Σ\boldsymbol{\Sigma}가 symmetric matrix이기 때문에 eigenvalue는 실수, eigenvector는 orthogonal)
        • uiTuj=Iij\mathbf{u}_i^\mathsf{T}\mathbf{u}_j = I_{ij} (eigenvector가 orthogonal하기 때문에)

          • Iij={1,if i=j0,otherwiseI_{ij} = \begin{cases} 1,\quad \text{if}\ i=j \\ 0,\quad\text{otherwise} \end{cases}
      • eigendecomposition

        • Σ=i=1DλiuiujT\boldsymbol{\Sigma} = \sum_{i=1}^D\lambda_i\mathbf{u}_i\mathbf{u}_j^\mathsf{T}
        • Σ1=i=1D1λiuiujT\boldsymbol{\Sigma}^{-1} = \sum_{i=1}^D{1\over{\lambda_i}}\mathbf{u}_i\mathbf{u}_j^\mathsf{T}
    • Mahalanobis distance represented with eigendecomposition

      • Δ2=i=1Dyi2λi\boldsymbol{\Delta}^2 = \sum_{i=1}^D{y_i^2\over{\lambda_i}}

        • yi=uiT(xμ)y_i = \mathbf{u}_i^\mathsf{T}(\mathbf{x}-\boldsymbol{\mu})
        • y=(y1,,yD)T=U(xμ)\mathbf{y} = (y_1,\cdots,y_D)^\mathsf{T} = \mathbf{U}(\mathbf{x}-\boldsymbol{\mu})
        • UUT=UTU=I\mathbf{U}\mathbf{U}^\mathsf{T} = \mathbf{U}^\mathsf{T}\mathbf{U} = \mathbf{I} (orthogonal)
      • Mahalanobis distance가 상수인 경우, y\mathbf{y}에 대한 매개변수식은 ellipse의 매개변수식이 됨

        • 장축 / 단축의 길이는 각각 eigenvalue의 제곱근 * 마할라노비스 거리
    • transformation with Jacobian J\lvert\mathbf{J}\rvert

      • Jij=xiyj=UjiUTJ_{ij} = {\partial{x_i}\over{\partial{y_j}}} = U_{ji} \in \mathbf{U}^\mathsf{T}
      • J2=UT2=UTU=UTU=I=1\lvert{\mathbf{J}}\rvert^2 = \lvert{\mathbf{U}}^\mathsf{T}\rvert^2 = \lvert{\mathbf{U}}^\mathsf{T}\rvert\lvert{\mathbf{U}}\rvert = \lvert{\mathbf{U}}^\mathsf{T}{\mathbf{U}}\rvert = \lvert{\mathbf{I}}\rvert = 1

        • Uorthogonal matrix\because \mathbf{U} \subset \text{orthogonal matrix}
      • Σ1/2=j=1Dλj1/2\lvert{\boldsymbol{\Sigma}}\rvert^{1/2} = \prod_{j=1}^D\lambda_j^{1/2}

        • determinant = product of eigenvalues
      • p(y)=p(x)J=j=1D1(2πλj)1/2exp{yj22λj}p(\mathbf{y}) = p(\mathbf{x})\lvert{\mathbf{J}}\rvert = \prod_{j=1}^D{1\over{(2\pi\lambda_j)^{1/2}}}\exp\left\{-{y_j^2\over{2\lambda_j}}\right\}

        • Jacobian transformation (x\mathbf{x}y\mathbf{y}의 매개변수일 때, p(y)dy=p(x)dxp(\mathbf{y})\,d\mathbf{y} = p(\mathbf{x})\,d\mathbf{x} 이므로)
        • D independent univariate Guassian distribvutions의 곱
        • eigenvector을 축으로 하는 D-dimensional ellipsoid
      • p(y)dy=j=1D1(2πλj)1/2exp{yj22λj}dyj=1\int p(\mathbf{y})\,d\mathbf{y} = \prod_{j=1}^D\int_{-\infty}^\infty{1\over{(2\pi\lambda_j)^{1/2}}}\exp\left\{-{y_j^2\over{2\lambda_j}}\right\}\,dy_j = 1
    • expectation

      • E[x]=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}xdx=1(2π)D/21Σ1/2exp{12zTΣ1z}(z+μ)dz=1(2π)D/21Σ1/2exp{12zTΣ1z}μdz=μ\mathbb{E}[\mathbf{x}] \\ = {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}\,d\mathbf{x}\\ = {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}(\mathbf{z}+\boldsymbol{\mu})\,d\mathbf{z}\\ = {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}\boldsymbol{\mu}\,d\mathbf{z}\\ = \boldsymbol{\mu}

        • z=xμ\mathbf{z} = \mathbf{x} - \boldsymbol{\mu}에 대하여 even function(우함수)
        • 1(2π)D/21Σ1/2exp{12zTΣ1z}dz=1{1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}\,d\mathbf{z} = 1
    • covariance

      • second order moments

        • E[xxT]=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}xxTdx=1(2π)D/21Σ1/2exp{12zTΣ1z}(z+μ)(z+μ)Tdz=1(2π)D/21Σ1/2exp{12zTΣ1z}(zzT+μμT+zTμ+zμT)dz=μμT+1(2π)D/21Σ1/2exp{12zTΣ1z}zzTdz=μμT+1(2π)D/21Σ1/2i=1Dj=1DuiujTexp{k=1Dyk22λk}yiyjdy=μμT+i=1DuiuiTλi=μμT+Σ\mathbb{E}[\mathbf{x}\mathbf{x}^\mathsf{T}] \\ = {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}\mathbf{x}\mathbf{x}^\mathsf{T}\,d\mathbf{x} \\ = {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}(\mathbf{z}+\boldsymbol{\mu})(\mathbf{z}+\boldsymbol{\mu})^\mathsf{T}\,d\mathbf{z} \\ = {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}(\mathbf{z}\mathbf{z}^\mathsf{T}+\boldsymbol{\mu}\boldsymbol{\mu}^\mathsf{T}+\mathbf{z}^\mathsf{T}\boldsymbol{\mu}+\mathbf{z}\boldsymbol{\mu}^\mathsf{T})\,d\mathbf{z} \\ = \boldsymbol{\mu}\boldsymbol{\mu}^\mathsf{T} + {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}\mathbf{z}\mathbf{z}^\mathsf{T}\,d\mathbf{z} \\ = \boldsymbol{\mu}\boldsymbol{\mu}^\mathsf{T} + {1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\sum_{i=1}^D\sum_{j=1}^D\mathbf{u}_i\mathbf{u}_j^\mathsf{T}\int\exp\left\{-\sum_{k=1}^D{y_k^2\over{2\lambda_k}}\right\}y_iy_j\,d\mathbf{y} \\ = \boldsymbol{\mu}\boldsymbol{\mu}^\mathsf{T} + \sum_{i=1}^D\mathbf{u}_i\mathbf{u}_i^\mathsf{T}\lambda_i \\ = \boldsymbol{\mu}\boldsymbol{\mu}^\mathsf{T} + \boldsymbol{\Sigma}

          • z=xμ\mathbf{z} = \mathbf{x} - \boldsymbol{\mu}에 대하여 even function(우함수)
          • 1(2π)D/21Σ1/2exp{12zTΣ1z}dz=1{1\over{(2\pi)^{D/2}}}{1\over{{\lvert{\boldsymbol{\Sigma}}\rvert}^{1/2}}}\int\exp\left\{-{1\over{2}}\mathbf{z}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{z}\right\}\,d\mathbf{z} = 1
      • covariance

        • cov[x]=E[(xE[x])(xE[x])T]=\operatorname{cov}[\mathbf{x}] = \mathbb{E}[(\mathbf{x}-\mathbb{E}[\mathbf{x}])(\mathbf{x}-\mathbb{E}[\mathbf{x}])^\mathsf{T}] =
        • cov[x]=Σ\operatorname{cov}[\mathbf{x}] = \boldsymbol{\Sigma}
    • Gaussian distribution의 한계

      • 차원이 클 경우, 행렬 연산 및 역행렬을 구하는 것이 어려움

        • 제한된 형태의 Gaussian distribution 이용

          • Σ=diag(σi2)\boldsymbol{\Sigma} = \operatorname{diag}(\sigma_i^2)

            • diagonal matrix형태의 공분산행렬만을 이용 (변수간 상관관계 없음)
          • Σ=σ2I\boldsymbol{\Sigma} = \sigma^2\mathbf{I}

            • isotropic covariance
          • 연산상 어려움을 해결할 수 있지만, 확률밀도의 형태가 제약됨
      • multimodal 분포를 표현하기 어려움

        • latent variable을 이용할 수 있음

          • Gaussian mixture model
          • Markov random field
          • linear dynamical system
          • 이러한 방법들은 딥러닝과 결합하여 유용하게 사용됨
  • Conditional Gaussian distributions

    • 두 변수의 결합분포가 가우시안이라면, 서로에 대한 조건부분포는 가우시안 분포를 따름
    • p(xaxb)p(\mathbf{x}_a{\mid}\mathbf{x}_b)가 가우시안 분포를 따르는 것을 증명
    • conditional Gaussian distribution

      • N(xμ,Σ)\mathcal{N}(\mathbf{x}{\mid}\boldsymbol{\mu},\boldsymbol{\Sigma}) 을 따르는 벡터 x\mathbf{x}를 subset xa\mathbf{x}_axa\mathbf{x}_a로 나눔

        • xa\mathbf{x}_axa\mathbf{x}_a의 joint distribution이 Gaussian distribution
        • x=(xaxb)\mathbf{x} = \begin{pmatrix}\mathbf{x}_a\\\mathbf{x}_b\end{pmatrix}
      • 평균값 벡터

        • μ=(μaμb)\boldsymbol{\mu} = \begin{pmatrix}\boldsymbol{\mu}_a\\\boldsymbol{\mu}_b\end{pmatrix}
      • 공분산 행렬

        • Σ=(ΣaaΣabΣbaΣbb)\boldsymbol{\Sigma} = \begin{pmatrix}\boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab}\\\boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb}\end{pmatrix}
        • Σaa\boldsymbol{\Sigma}_{aa}, Σbb\boldsymbol{\Sigma}_{bb}은 symmetric matrix
        • Σab=ΣbaT\boldsymbol{\Sigma}_{ab} = \boldsymbol{\Sigma}_{ba}^\mathsf{T}
      • precision matrix

        • Λ=Σ1\boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}
        • Λ=(ΛaaΛabΛbaΛbb)\boldsymbol{\Lambda} = \begin{pmatrix}\boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab}\\\boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb}\end{pmatrix}
        • Λaa\boldsymbol{\Lambda}_{aa}, Λbb\boldsymbol{\Lambda}_{bb}은 symmetric matrix
        • Λab=ΛbaT\boldsymbol{\Lambda}_{ab} = \boldsymbol{\Lambda}_{ba}^\mathsf{T}
      • 마할라노비스 거리(결합분포의 지수항)를 분할

        • 12(xμ)TΣ1(xμ)=12(xaμa)TΛaa(xaμa)12(xaμa)TΛab(xbμb)12(xbμb)TΛba(xaμa)12(xbμb)TΛbb(xbμb)-{1\over{2}}(\mathbf{x} - \boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu})\\ = -{1\over{2}}(\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathsf{T}\boldsymbol{\Lambda}_{aa}(\mathbf{x}_a - \boldsymbol{\mu}_a)-{1\over{2}}(\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathsf{T}\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b - \boldsymbol{\mu}_b)\\ -{1\over{2}}(\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathsf{T}\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a - \boldsymbol{\mu}_a)-{1\over{2}}(\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathsf{T}\boldsymbol{\Lambda}_{bb}(\mathbf{x}_b - \boldsymbol{\mu}_b)
        • 식의 꼴을 보면, xa\mathbf{x}_a에 대하여 quadratic form임을 볼 수 있고, 따라서 p(xaxb)p(\mathbf{x}_a{\mid}\mathbf{x}_b)는 가우시안임을 알 수 있음
        • 위와 같이 판단할 수 있는 이유는 지수상이 quadratic form인 분포는 반드시 가우시안 분포이기 때문, 가우시안 분포의 본질은 지수상이 quadratic form인 분포 그 자체이며, 지수상의 각 항의 계수에 따라 평균과 분산이 결정되는 분포임, 지수상이 아닌 계수부는 단순히 정규화 상수로, 적분값을 1로 만들어주기 위한 상수일 뿐(물론, 정규화가 불가능한 경우와 복소수 공간을 고려하지 않았을 경우의 이야기)
      • completing the square (완전제곱식 만들기)

        • 12(xμ)TΣ1(xμ)=12xTΣ1x+xTΣ1μ+const-{1\over{2}}(\mathbf{x} - \boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu}) = -{1\over{2}}\mathbf{x}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{x}+\mathbf{x}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}+\text{const}
        • 위와 같이 정리되는 이유는 당연한 이야기이지만 x\mathbf{x}μ\boldsymbol{\mu}가 D차원 열벡터이기 때문에, 12(μ)TΣ1x12xTΣ1(μ)-{1\over{2}}(- \boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{x} -{1\over{2}}\mathbf{x}^\mathsf{T}\boldsymbol{\Sigma}^{-1}(- \boldsymbol{\mu})가 스칼라로, 동일하게 12xTΣ1μ{1\over{2}}\mathbf{x}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}의 값을 가지기 때문
        • exponent term 위의 quadratic form 이 주어졌을 때, 오른쪽과 같이 식을 정리할 경우, 이차항 계수 행렬이 Σ1\boldsymbol{\Sigma}^{-1}이며, 일차항 계수 행렬이 Σ1μ\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}
        • 이런 식으로 가우시안 분포에서 지수상의 이차식이 주어졌을 때, 완전제곱식으로의 변형을 통해 평균과 공분산을 찾을 수 있음 (본문에서는 완전제곱식의 전개를 통하여 계수로부터 찾는 방식으로 표현)
        • 이하에서는 이를 활용하여 조건부 가우시안 분포의 평균과 공분산을 구함
      • completing the square of p(xaxb)p(\mathbf{x}_a{\mid}\mathbf{x}_b)

        • 12(xaμa)TΛaa(xaμa)12(xaμa)TΛab(xbμb)12(xbμb)TΛba(xaμa)12(xbμb)TΛbb(xbμb)-{1\over{2}}(\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathsf{T}\boldsymbol{\Lambda}_{aa}(\mathbf{x}_a - \boldsymbol{\mu}_a)-{1\over{2}}(\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathsf{T}\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b - \boldsymbol{\mu}_b)\\ -{1\over{2}}(\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathsf{T}\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a - \boldsymbol{\mu}_a)-{1\over{2}}(\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathsf{T}\boldsymbol{\Lambda}_{bb}(\mathbf{x}_b - \boldsymbol{\mu}_b)
        • xa\mathbf{x}_a의 이차항 : 12xaTΛaaxa-{1\over{2}}\mathbf{x}_a^\mathsf{T}\boldsymbol{\Lambda}_{aa}\mathbf{x}_a

          • Σab=Λaa1\boldsymbol{\Sigma}_{a{\mid}b} = \boldsymbol{\Lambda}_{aa}^{-1}
        • xa\mathbf{x}_a의 일차항 : xaT{ΛaaμaΛab(xbμb)}\mathbf{x}_a^\mathsf{T}\{\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b-\boldsymbol{\mu}_b)\}

          • μab=Σab{ΛaaμaΛab(xbμb)}=μaΛaa1Λab(xbμb)\boldsymbol{\mu}_{a{\mid}b} = \boldsymbol{\Sigma}_{a{\mid}b}\{\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b-\boldsymbol{\mu}_b)\}\\ =\boldsymbol{\mu}_a-\boldsymbol{\Lambda}_{aa}^{-1}\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b-\boldsymbol{\mu}_b)
        • 역행렬에서 행렬 블럭에 대한 성질

          • M=(ABCD)\mathbf{M} = \begin{pmatrix}\mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix}
          • MD=ABD1C\mathbf{M\over{D}} = \mathbf{A}-\mathbf{BD}^{-1}\mathbf{C} (슈어 보수행렬: Schur complement)
          • M1=(ABCD)1=(MD1MD1BD1D1CMD1D1+D1CMD1BD1)\mathbf{M}^{-1} = \begin{pmatrix}\mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix}^{-1} = \begin{pmatrix} \mathbf{M\over{D}}^{-1} & -\mathbf{{M\over{D}}^{-1}BD}^{-1} \\ -\mathbf{D}^{-1}\mathbf{C{M\over{D}}^{-1}} & \mathbf{D}^{-1}+\mathbf{D}^{-1}\mathbf{C{M\over{D}}^{-1}BD}^{-1} \end{pmatrix}
          • 이를 이용하여 아래와 같이 precision matrix를 covariance matrix로 표현할 수 있음(다만, precision matrix를 활용한 표현이 좀 더 간단)
        • (ΣaaΣabΣbaΣbb)1=(ΛaaΛabΛbaΛbb)\begin{pmatrix}\boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{pmatrix}^{-1} = \begin{pmatrix}\boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix}
        • Λaa=(ΣaaΣabΣbb1Σba)1\boldsymbol{\Lambda}_{aa} = (\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})^{-1}
        • Λab=(ΣaaΣabΣbb1Σba)1ΣabΣbb1\boldsymbol{\Lambda}_{ab} = -(\boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba})^{-1}\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}
        • μab=μa+ΣabΣbb1(xbμb)\boldsymbol{\mu}_{a{\mid}b} = \boldsymbol{\mu}_a+\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)
        • Σab=ΣaaΣabΣbb1Σba\boldsymbol{\Sigma}_{a{\mid}b} = \boldsymbol{\Sigma}_{aa}-\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}\boldsymbol{\Sigma}_{ba}
      • p(xaxb)p(\mathbf{x}_a{\mid}\mathbf{x}_b)에 대하여, 기대값은 p(xb)p(\mathbf{x}_b)에 대헤 linear, 공분산은 p(xb)p(\mathbf{x}_b)에 대하여 independent

        • linear Gaussian model
  • Marginal Gaussian distributions

    • 두 변수의 결합분포가 가우시안이라면, 각각에 대한 주변분포는 가우시안 분포를 따름
    • p(xa)=p(xa,xb)dxbp(\mathbf{x}_a) = \int{p(\mathbf{x}_a, \mathbf{x}_b)\,d\mathbf{x}_b}가 가우시안을 따르는 것을 증명(증명방식은 조건부 분포에서의 방식과 대동소이함)
    • 마할라노비스 거리(결합분포의 지수항)를 분할

      • 12(xμ)TΣ1(xμ)=12(xaμa)TΛaa(xaμa)12(xaμa)TΛab(xbμb)12(xbμb)TΛba(xaμa)12(xbμb)TΛbb(xbμb)-{1\over{2}}(\mathbf{x} - \boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu})\\ = -{1\over{2}}(\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathsf{T}\boldsymbol{\Lambda}_{aa}(\mathbf{x}_a - \boldsymbol{\mu}_a)-{1\over{2}}(\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathsf{T}\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b - \boldsymbol{\mu}_b)\\ -{1\over{2}}(\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathsf{T}\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a - \boldsymbol{\mu}_a)-{1\over{2}}(\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathsf{T}\boldsymbol{\Lambda}_{bb}(\mathbf{x}_b - \boldsymbol{\mu}_b)
    • xb\mathbf{x}_b종속항만을 뽑아냄

      • 12xbTΛbbxb+xbT{ΛbbμbΛba(xaμa)}=12xbTΛbbxb+xbTm=12(xbΛbb1m)TΛbb(xbΛbb1m)+12mTΛbb1m-{1\over{2}}\mathbf{x}_b^\mathsf{T}\boldsymbol{\Lambda}_{bb}\mathbf{x}_b+\mathbf{x}_b^\mathsf{T}\{\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a-\boldsymbol{\mu}_a)\}\\ =-{1\over{2}}\mathbf{x}_b^\mathsf{T}\boldsymbol{\Lambda}_{bb}\mathbf{x}_b+\mathbf{x}_b^\mathsf{T}\mathbf{m} \\ =-{1\over{2}}(\mathbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m})^\mathsf{T}\boldsymbol{\Lambda}_{bb}(\mathbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m})+{1\over{2}}\mathbf{m}^\mathsf{T}\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m}

        • m=ΛbbμbΛba(xaμa)\mathbf{m} = \boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a-\boldsymbol{\mu}_a)
        • 마지막 완전제곱식으로의 변환시 정방행렬 A가 대칭이고 양의 정부호일 때의 항등식
          12xTAx+xTb=12(xA1b)TA(xA1b)+12bTA1b-{1\over{2}}\mathbf{x}^\mathsf{T}A\mathbf{x}+\mathbf{x}^\mathsf{T}b = -{1\over{2}}(\mathbf{x}-A^{-1}b)^\mathsf{T}A(\mathbf{x}-A^{-1}b)+{1\over{2}}b^\mathsf{T}A^{-1}b을 이용

          • 단변수 다항식에서 ax2+bx+c=a(x+b2a)2b24ac4aax^2 + bx + c = a(x + {b\over{2a}})^2 - {{b^2 - 4ac}\over{4a}}의 일반 항등식에서 a=1/2,c=0a = 1/2, c = 0인 경우에 대응
      • 위 식에서 지수함수를 취한 뒤 xb\mathbf{x}_b에 종속적인 항을 골라서 적분
        (계수는 정규화 상수일 뿐이기 때문에, 고려할 필요 없음)

        • exp{12(xbΛbb1m)TΛbb(xbΛbb1m)}dxb\int{\exp\left\{-{1\over{2}}(\mathbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m})^\mathsf{T}\boldsymbol{\Lambda}_{bb}(\mathbf{x}_b-\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m})\right\}\,d\mathbf{x}_b}
        • 이는 정규화되지 않은 가우시안의 적분으로, 정규화 계수의 역수의 값을 가짐
        • 정규화 계수는 평균으로부터 독립적이며, 공분산행렬의 행렬식에 대하여 종속적
        • 따라서, 평균 Λbb1m\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m}xa\mathbf{x}_a에 종속적인 항처럼 보이더라도, 결국 평균이기에 위의 적분시 상수 취급할 수 있음
        • 따라서 완전제곱식은 주변분포 p(xa,xb)dxb\int{p(\mathbf{x}_a, \mathbf{x}_b)\,d\mathbf{x}_b}에서는 상수 취급할 수 있고, 제거가능함
    • xb\mathbf{x}_b비종속항과 상수로 제거되지 않은 12mTΛbb1m=12[ΛbbμbΛba(xaμa)]TΛbb1[ΛbbμbΛba(xaμa)]{1\over{2}}\mathbf{m}^\mathsf{T}\boldsymbol{\Lambda}_{bb}^{-1}\mathbf{m} = {1\over{2}}[\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a-\boldsymbol{\mu}_a)]^\mathsf{T}\boldsymbol{\Lambda}_{bb}^{-1}[\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a-\boldsymbol{\mu}_a)]을 합침

      • 12[ΛbbμbΛba(xaμa)]TΛbb1[ΛbbμbΛba(xaμa)]12xaTΛaaxa+xaT(Λaaμa+Λabμb)+const=12xaT(ΛaaΛabΛbb1Λba)xa+xaT(ΛaaΛabΛbb1Λba)μa+const{1\over{2}}[\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a-\boldsymbol{\mu}_a)]^\mathsf{T}\boldsymbol{\Lambda}_{bb}^{-1}[\boldsymbol{\Lambda}_{bb}\boldsymbol{\mu}_b-\boldsymbol{\Lambda}_{ba}(\mathbf{x}_a-\boldsymbol{\mu}_a)] - {1\over{2}}\mathbf{x}_a^\mathsf{T}\boldsymbol{\Lambda}_{aa}\mathbf{x}_a+\mathbf{x}_a^\mathsf{T}(\boldsymbol{\Lambda}_{aa}\boldsymbol{\mu}_a+\boldsymbol{\Lambda}_{ab}\boldsymbol{\mu}_b)+\text{const} \\ = -{1\over{2}}\mathbf{x}_a^\mathsf{T}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\mathbf{x}_a+\mathbf{x}_a^\mathsf{T}(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})\boldsymbol{\mu}_a+\text{const}
    • 12(xμ)TΣ1(xμ)=12xTΣ1x+xTΣ1μ+const-{1\over{2}}(\mathbf{x} - \boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x} - \boldsymbol{\mu}) = -{1\over{2}}\mathbf{x}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\mathbf{x}+\mathbf{x}^\mathsf{T}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}+\text{const}를 통해서

      • 공분산: (ΛaaΛabΛbb1Λba)1=Σaa(\boldsymbol{\Lambda}_{aa}-\boldsymbol{\Lambda}_{ab}\boldsymbol{\Lambda}_{bb}^{-1}\boldsymbol{\Lambda}_{ba})^{-1} = \boldsymbol{\Sigma}_{aa} (슈어 보수행렬)
      • 평균: μa\boldsymbol{\mu}_a
  • Partitioned Gaussians: 위의 내용을 정리

    • 결합 가우시안 분포 N(xμ,Σ)\mathcal{N}(\mathbf{x}{\mid}\boldsymbol{\mu},\boldsymbol{\Sigma}), ΛΣ1\boldsymbol{\Lambda}\equiv{\boldsymbol{\Sigma}^{-1}}

      • x=(xaxb)\mathbf{x}=\begin{pmatrix}\mathbf{x}_a \\ \mathbf{x}_b\end{pmatrix}, μ=(μaμb)\boldsymbol{\mu}=\begin{pmatrix}\boldsymbol{\mu}_a \\ \boldsymbol{\mu}_b\end{pmatrix}, Σ=(ΣaaΣabΣbaΣbb)\boldsymbol{\Sigma}=\begin{pmatrix}\boldsymbol{\Sigma}_{aa} && \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} && \boldsymbol{\Sigma}_{bb}\end{pmatrix}, Λ=(ΛaaΛabΛbaΛbb)\boldsymbol{\Lambda}=\begin{pmatrix}\boldsymbol{\Lambda}_{aa} && \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} && \boldsymbol{\Lambda}_{bb}\end{pmatrix}
    • 이 때, 조건부 분포의 경우

      • p(xaxb)=N(xaμab,Λaa1)p(\mathbf{x}_a{\mid}\mathbf{x}_b) = \mathcal{N}(\mathbf{x}_a{\mid}\boldsymbol{\mu}_{a{\mid}b},\boldsymbol{\Lambda_{aa}^{-1}})
      • μab=μaΛaa1Λab(xbμb)\boldsymbol{\mu}_{a{\mid}b} = \boldsymbol{\mu}_a - \boldsymbol{\Lambda}_{aa}^{-1}\boldsymbol{\Lambda}_{ab}(\mathbf{x}_b - \boldsymbol{\mu}_b)
    • 이 때, 주변 분포의 경우

      • p(xa)=N(xaμa,Σaa)p(\mathbf{x}_a) = \mathcal{N}(\mathbf{x}_a{\mid}\boldsymbol{\mu}_a,\boldsymbol{\Sigma}_{aa})
  • Bayes’ Theorem for Gaussian variables

    • 앞에서 확인한 바와 같이, 조건부 분포 p(yx)p(\mathbf{y}{\mid}\mathbf{x})의 평균이 x\mathbf{x}에 대해서 선형함수이고, 공분산이 x\mathbf{x}에 대하여 독립적일 때, 이는 linear Gaussian model의 예시가 됨
    • 이 때, 주변 분포 p(y)p(\mathbf{y})와 조건부 분포 p(xy)p(\mathbf{x}{\mid}\mathbf{y})를 구하는 방법
    • 주변 분포와 조건부 분포를 아래와 같이 정의

      • p(x)=N(xμ,Λ1)p(\mathbf{x}) = \mathcal{N}(\mathbf{x}{\mid}\boldsymbol{\mu},\boldsymbol{\Lambda}^{-1})
      • p(yx)=N(yAx+b,L1)p(\mathbf{y}{\mid}\mathbf{x}) = \mathcal{N}(\mathbf{y}{\mid}\mathbf{A}\mathbf{x}+\mathbf{b},\mathbf{L}^{-1})
    • x\mathbf{x}y\mathbf{y}의 결합분포의 표현식을 찾기 위해 z=(xy)\mathbf{z} = \begin{pmatrix}\mathbf{x} \\ \mathbf{y}\end{pmatrix}를 정의
    • 결합분포의 로그값

      • lnp(z)=lnp(x)+lnp(yx)=12(xμ)TΛ(xμ)12(yAxb)TL(yAxb)+const\ln{p(\mathbf{z})} = \ln{p(\mathbf{x})} + \ln{p(\mathbf{y}{\mid}\mathbf{x})} = -{1\over{2}}(\mathbf{x}-\boldsymbol{\mu})^{\mathsf{T}}\boldsymbol{\Lambda}(\mathbf{x}-\boldsymbol{\mu}) -{1\over{2}}(\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b})^{\mathsf{T}}\mathbf{L}(\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b})+\text{const}
    • 위를 전개하여 정밀도(공분산역행렬)와 평균을 찾음

      • 먼저, z\mathbf{z}의 2차항을 찾음

        • 12xT(Λ+ATLA)x12yTLy+12yTLAx+12xTATLy=12(xy)T(Λ+ATLAATLLAL)(xy)=12zTRz-{1\over{2}}\mathbf{x}^\mathsf{T}(\boldsymbol{\Lambda}+\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{A})\mathbf{x}-{1\over{2}}\mathbf{y}^\mathsf{T}\mathbf{L}\mathbf{y}+{1\over{2}}\mathbf{y}^\mathsf{T}\mathbf{L}\mathbf{A}\mathbf{x}+{1\over{2}}\mathbf{x}^\mathsf{T}\mathbf{A}^\mathbf{T}\mathbf{L}\mathbf{y} \\ = -{1\over{2}}\begin{pmatrix}\mathbf{x} \\ \mathbf{y}\end{pmatrix}^\mathsf{T}\begin{pmatrix}\boldsymbol{\Lambda}+\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{A} && -\mathbf{A}^\mathsf{T}\mathbf{L} \\ -\mathbf{L}\mathbf{A} && \mathbf{L}\end{pmatrix} \begin{pmatrix}\mathbf{x} \\ \mathbf{y}\end{pmatrix} \\ = -{1\over{2}}\mathbf{z}^\mathsf{T}\mathbf{R}\mathbf{z}
      • 이에 따라 z\mathbf{z}에 대한 가우시안 분포는 아래의 정밀도 행렬을 가짐

        • R=(Λ+ATLAATLLAL)\mathbf{R} = \begin{pmatrix}\boldsymbol{\Lambda}+\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{A} && -\mathbf{A}^\mathsf{T}\mathbf{L} \\ -\mathbf{L}\mathbf{A} && \mathbf{L}\end{pmatrix}
      • 공분산행렬은 슈어 보수행렬을 통하여 정밀도 행렬의 역행렬로 구할 수 있음

        • cov[z]=R1=(Λ1Λ1ATAΛ1L1+AΛ1AT)\operatorname{cov}[\mathbf{z}] = \mathbf{R}^{-1} = \begin{pmatrix}\boldsymbol{\Lambda}^{-1} && \boldsymbol{\Lambda}^{-1}\mathbf{A}^\mathsf{T} \\ \mathbf{A}\boldsymbol{\Lambda}^{-1} && \mathbf{L}^{-1}+\mathbf{A}\boldsymbol{\Lambda}^{-1}\mathbf{A}^\mathsf{T}\end{pmatrix}
      • 평균은 z\mathbf{z}의 1차항을 통하여 구할 수 있음

        • xTΛμxTATLb+yTLb=(xy)T(ΛμATLbLb)\mathbf{x}^\mathsf{T}\boldsymbol{\Lambda}\boldsymbol{\mu}-\mathbf{x}^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{b}+\mathbf{y}^\mathsf{T}\mathbf{L}\mathbf{b} = \begin{pmatrix}\mathbf{x} \\ \mathbf{y}\end{pmatrix}^\mathsf{T}\begin{pmatrix}\boldsymbol{\Lambda}\boldsymbol{\mu}-\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{b} \\ \mathbf{L}\mathbf{b}\end{pmatrix}
        • E[z]=R1(ΛμATLbLb)\mathbb{E}[\mathbf{z}] = \mathbf{R}^{-1}\begin{pmatrix}\boldsymbol{\Lambda}\boldsymbol{\mu}-\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{b} \\ \mathbf{L}\mathbf{b}\end{pmatrix}
        • E[z]=(μAμ+b)\mathbb{E}[\mathbf{z}] = \begin{pmatrix}\boldsymbol{\mu} \\ \mathbf{A}\boldsymbol{\mu}+\mathbf{b}\end{pmatrix}
    • 주변 분포 p(y)p(\mathbf{y})의 표현식

      • E[y]=Aμ+b\mathbb{E}[\mathbf{y}] = \mathbf{A}\boldsymbol{\mu}+\mathbf{b} (행렬에서 μy\boldsymbol{\mu}_\mathbf{y}에 해당)
      • cov[y]=L1+AΛ1AT\operatorname{cov}[\mathbf{y}] = \mathbf{L}^{-1}+\mathbf{A}\boldsymbol{\Lambda}^{-1}\mathbf{A}^\mathsf{T} (행렬에서 Σyy\boldsymbol{\Sigma}_{\mathbf{yy}}에 해당)
      • 특별히 A=I\mathbf{A} = \mathbf{I}인 경우, 이 결과는 두 가우시안 분포의 convolution에 해당

        • convolution의 평균은 두 가우시안 평균의 합
        • convolution의 공분산은 두 가우시안 공분산의 합
    • 조건부 분포 p(xy)p(\mathbf{x}{\mid}\mathbf{y})의 표현식

      • E[xy]=(Λ+ATLA)1{ATL(yb+Λμ}\mathbb{E}[\mathbf{x}{\mid}\mathbf{y}] = (\boldsymbol{\Lambda}+\mathbf{A}^\mathsf{T}\mathbf{L}\mathbf{A})^{-1}\{\mathbf{A}^\mathsf{T}\mathbf{L}(\mathbf{y}-\mathbf{b}+\boldsymbol{\Lambda}\boldsymbol{\mu}\}
Machine LearningMLBookBishop PRML