Bishop PRML - Ch2. Probability Distributions (3)
Posted on
The Gaussian Distribution
-
Gaussian distribution
- 가우시안 분포의 핵심은, exponent term이 quadratic form인 분포라는 것
(정규화가 불가능한 경우와, 복소수 공간을 고려하지 않은 경우라면 위의 내용만 성립할 경우 항상 가우시안 분포임) -
univariate Gaussian distribution
-
multivariate Gaussian distribution
-
CLT (central limit theorem)
- 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워짐
- 때문에, 다양한 경우에 대하여 가장 빈번하게 쓰이는 분포
-
Mahalanobis distance
- Gaussian distribution의 exponential항
- Euclidian distance를 분산(공분산)으로 나눈 거리
- normalized된 Euclidian distance라고 생각하면 좋음
-
이론적으로 중요한 내용은 아니지만, Mahalanobis distance를 구할 때 full rank가 아닌 경우 inverse covariance matrix를 구하기 어려움
때문에, 실용적으로는 Moore-Penrose pseudoinverse를 이용함
pseudoinverse는 SVD(singular value decomposition을 통하여 아래와 같이 구할 수 있음)
-
covariance matrix
- covariance matrix 는 symmetric & positive semidefinite
-
eigenvalue, eigenvector
- (가 symmetric matrix이기 때문에 eigenvalue는 실수, eigenvector는 orthogonal)
-
(eigenvector가 orthogonal하기 때문에)
-
eigendecomposition
-
Mahalanobis distance represented with eigendecomposition
-
- (orthogonal)
-
Mahalanobis distance가 상수인 경우, 에 대한 매개변수식은 ellipse의 매개변수식이 됨
- 장축 / 단축의 길이는 각각 eigenvalue의 제곱근 * 마할라노비스 거리
-
-
transformation with Jacobian
-
-
- determinant = product of eigenvalues
-
- Jacobian transformation (가 의 매개변수일 때, 이므로)
- D independent univariate Guassian distribvutions의 곱
- eigenvector을 축으로 하는 D-dimensional ellipsoid
-
expectation
-
- 에 대하여 even function(우함수)
-
-
covariance
-
second order moments
-
- 에 대하여 even function(우함수)
-
-
covariance
-
-
Gaussian distribution의 한계
-
차원이 클 경우, 행렬 연산 및 역행렬을 구하는 것이 어려움
-
제한된 형태의 Gaussian distribution 이용
-
- diagonal matrix형태의 공분산행렬만을 이용 (변수간 상관관계 없음)
-
- isotropic covariance
- 연산상 어려움을 해결할 수 있지만, 확률밀도의 형태가 제약됨
-
-
-
multimodal 분포를 표현하기 어려움
-
latent variable을 이용할 수 있음
- Gaussian mixture model
- Markov random field
- linear dynamical system
- 이러한 방법들은 딥러닝과 결합하여 유용하게 사용됨
-
-
- 가우시안 분포의 핵심은, exponent term이 quadratic form인 분포라는 것
-
Conditional Gaussian distributions
- 두 변수의 결합분포가 가우시안이라면, 서로에 대한 조건부분포는 가우시안 분포를 따름
- 가 가우시안 분포를 따르는 것을 증명
-
conditional Gaussian distribution
-
을 따르는 벡터 를 subset 와 로 나눔
- 와 의 joint distribution이 Gaussian distribution
-
평균값 벡터
-
공분산 행렬
- , 은 symmetric matrix
-
precision matrix
- , 은 symmetric matrix
-
마할라노비스 거리(결합분포의 지수항)를 분할
- 식의 꼴을 보면, 에 대하여 quadratic form임을 볼 수 있고, 따라서 는 가우시안임을 알 수 있음
- 위와 같이 판단할 수 있는 이유는 지수상이 quadratic form인 분포는 반드시 가우시안 분포이기 때문, 가우시안 분포의 본질은 지수상이 quadratic form인 분포 그 자체이며, 지수상의 각 항의 계수에 따라 평균과 분산이 결정되는 분포임, 지수상이 아닌 계수부는 단순히 정규화 상수로, 적분값을 1로 만들어주기 위한 상수일 뿐(물론, 정규화가 불가능한 경우와 복소수 공간을 고려하지 않았을 경우의 이야기)
-
completing the square (완전제곱식 만들기)
- 위와 같이 정리되는 이유는 당연한 이야기이지만 와 가 D차원 열벡터이기 때문에, 가 스칼라로, 동일하게 의 값을 가지기 때문
- exponent term 위의 quadratic form 이 주어졌을 때, 오른쪽과 같이 식을 정리할 경우, 이차항 계수 행렬이 이며, 일차항 계수 행렬이
- 이런 식으로 가우시안 분포에서 지수상의 이차식이 주어졌을 때, 완전제곱식으로의 변형을 통해 평균과 공분산을 찾을 수 있음 (본문에서는 완전제곱식의 전개를 통하여 계수로부터 찾는 방식으로 표현)
- 이하에서는 이를 활용하여 조건부 가우시안 분포의 평균과 공분산을 구함
-
completing the square of
-
의 이차항 :
-
의 일차항 :
-
역행렬에서 행렬 블럭에 대한 성질
- (슈어 보수행렬: Schur complement)
- 이를 이용하여 아래와 같이 precision matrix를 covariance matrix로 표현할 수 있음(다만, precision matrix를 활용한 표현이 좀 더 간단)
-
에 대하여, 기대값은 에 대헤 linear, 공분산은 에 대하여 independent
- linear Gaussian model
-
-
Marginal Gaussian distributions
- 두 변수의 결합분포가 가우시안이라면, 각각에 대한 주변분포는 가우시안 분포를 따름
- 가 가우시안을 따르는 것을 증명(증명방식은 조건부 분포에서의 방식과 대동소이함)
-
마할라노비스 거리(결합분포의 지수항)를 분할
-
종속항만을 뽑아냄
-
-
마지막 완전제곱식으로의 변환시 정방행렬 A가 대칭이고 양의 정부호일 때의 항등식
을 이용- 단변수 다항식에서 의 일반 항등식에서 인 경우에 대응
-
위 식에서 지수함수를 취한 뒤 에 종속적인 항을 골라서 적분
(계수는 정규화 상수일 뿐이기 때문에, 고려할 필요 없음)- 이는 정규화되지 않은 가우시안의 적분으로, 정규화 계수의 역수의 값을 가짐
- 정규화 계수는 평균으로부터 독립적이며, 공분산행렬의 행렬식에 대하여 종속적
- 따라서, 평균 가 에 종속적인 항처럼 보이더라도, 결국 평균이기에 위의 적분시 상수 취급할 수 있음
- 따라서 완전제곱식은 주변분포 에서는 상수 취급할 수 있고, 제거가능함
-
-
비종속항과 상수로 제거되지 않은 을 합침
-
를 통해서
- 공분산: (슈어 보수행렬)
- 평균:
-
Partitioned Gaussians: 위의 내용을 정리
-
결합 가우시안 분포 ,
- , , ,
-
이 때, 조건부 분포의 경우
-
이 때, 주변 분포의 경우
-
-
Bayes’ Theorem for Gaussian variables
- 앞에서 확인한 바와 같이, 조건부 분포 의 평균이 에 대해서 선형함수이고, 공분산이 에 대하여 독립적일 때, 이는 linear Gaussian model의 예시가 됨
- 이 때, 주변 분포 와 조건부 분포 를 구하는 방법
-
주변 분포와 조건부 분포를 아래와 같이 정의
- 와 의 결합분포의 표현식을 찾기 위해 를 정의
-
결합분포의 로그값
-
위를 전개하여 정밀도(공분산역행렬)와 평균을 찾음
-
먼저, 의 2차항을 찾음
-
이에 따라 에 대한 가우시안 분포는 아래의 정밀도 행렬을 가짐
-
공분산행렬은 슈어 보수행렬을 통하여 정밀도 행렬의 역행렬로 구할 수 있음
-
평균은 의 1차항을 통하여 구할 수 있음
-
-
주변 분포 의 표현식
- (행렬에서 에 해당)
- (행렬에서 에 해당)
-
특별히 인 경우, 이 결과는 두 가우시안 분포의 convolution에 해당
- convolution의 평균은 두 가우시안 평균의 합
- convolution의 공분산은 두 가우시안 공분산의 합
-
조건부 분포 의 표현식