Bishop PRML - Ch1. Introduction (2)
Posted on
Probability Theory
-
uncertainty의 발생 원인
- noise on measurements
- finite size of data sets
-
probability theory
- 불확실성을 계량화하고, 조작하기 위한 일관된 프레임워크를 제공
-
decision theory
- 확률론과 결합될 때, 정보가 불완전하고나 애매하더라도 주어진 모든 정보를 이용하여 최적의 예측을 할 수 있게 함
-
The Rules of Probability
-
sum rule
- marginal probability는 나며지 변수들에 대한 joint probability들의 총합
-
product rule
- joint probability는 marginal probability와 conditional probability의 곱
-
Bayes’ Theorem
- product rule, 대칭성으로 유도
-
-
sum rule에서 전개시
-
-
marginal probability는 normalization constant로 볼 수도 있음
-
주)
- joint probability를 normalization ()
-
generative model에 대한 이해가 있으면 normalization constant라는 표현을 더 쉽게 이해할 수 있음
- X가 데이터, Y가 레이블일 경우
- posterior (피처 X에 대하여 Y레이블에 속할 확률)을 구하는 것이 목적
- likelihood 는 레이블 별 피처 분포로, 보통 모델링을 진행함 (multivariate normal distribution 가정시 QDA/LDA)
- prior 는 레이블 분포로, 모델링하거나 학습 데이터셋의 분포를 이용함
- marginal probability 는 전체 샘플에서 각 샘플이 얼마나 있냐는 텀으로, 곧 normalization을 위한 텀이 됨. 각각의 데이터를 별개로 본다면, 무시해도 무방 (각 데이터마다 업데이트 될 것이므로)
-
-
특히, 아래 prior / likelihood / posterior에 대한 개념은 Frequentist와 Bayesian관점의 차이를 보여주며, 대단히 중요
-
Y로 모수 분포를 쓰기도 하고 레이블 분포를 쓰기도 하는데, 레이블 분포가 모수 분포에 포함되어 사실은 같은 개념이지만 posterior을 이용하는 방식이 상당히 달라지기 때문에 구분하여 이해하는 편이 헷갈리지 않을 수 있음
- MAP(maximum a posteriori)에서는 Y로 모수를 쓰고, generative model에서는 Y로 레이블 분포를 쓴다고 이해하면 편함
-
Y가 모수 분포일 경우
-
prior
- 관측 전 확률 / hypothesis
- 가정한 모수 분포
-
likelihood
- 가능도
- hypothesis가 참일 때 데이터가 관측될 확률
- 보통 확률분포 모델이 되며, 모수를 변수로 하는 함수가 됨
-
posterior
- 관측 후 확률
- 데이터 X가 관측되었을 때, 모수 Y가 참일 확률
- MAP에서는 posterior을 maximize하는 모수를 찾음
-
-
Y가 레이블 분포일 경우
-
prior
- 관측 전 확률 / hypothesis
- 관측 전에 가정한 모델의 레이블 분포(Y를 관측할 확률)
- 보통 training data set의 레이블 분포를 이용함
-
likelihood
- 가능도
- Y레이블 내에서 데이터 X의 분포
- 보통 training data set의 분포를 이용하여 모델링 진행함 (가우시안 분포 등으로 가정)
-
posterior
- 관측 후 확률
- 데이터 X를 관측하였을 때, Y가 참일 확률
- maximum posterior을 구하여 레이블을 찾음
-
- 둘로 나누어 설명했지만 사실 동일한 개념
-
-
인 경우, 두 확률변수는 independent
- 각 확률변수가 다른 확률변수의 영향을 받지 않음
- 이 때의 독립은 완전독립
- 추후 conditionally independent개념이 naive bayes classifier에서 중요하게 다루어짐
-
-
probability densities
- 연속적인 변수에 대한 확률분포
- 를 PDF(probability density function)이라 함
-
변수에 대한 비선형 변환시 확률밀도함수는 Jacobian에 의해 simple function(discrete한 경우)와는 다르게 변화함
- simple function의 경우, 가 자명함
- PDF의 최대값은 어떤 변수를 선택하냐에 따라 다름
- 무슨 말인고 하니, 에 대한 어떤 분포의 최대값 을 구할 때, 를 만족하는 매개변수 에 대하여, 일 수 있다는 의미
- 유도과정 : [연습문제 1.4]
-
가 에 있을 확률은 CDF(cumulative distribution function)으로 표현됨
-
joint probability density
- x가 discrete할 경우, p(x)는 probability mass function이라고 하기도 함
- measure theory에서 실수 변수를 너비의 인터벌로 쪼갠 뒤, 각 인터벌의 분포를 discrete로 가정 후, 를 취하여 continuous한 경우에 대한 식을 얻을 수 있음
-
sum rule
-
product rule
-
Expectations and covariances
-
Expectation of f(x)
-
discrete distribution
-
continuous distribution
-
유한개의 포인트를 샘플링하였을 경우, 유한요소법에 따른 수치해석적 근사
-
다변수 함수에 대한 expectation
- 어떤 변수에 대하여 평균을 낼 지 밑 첨자로 표현
-
- 함수 를 의 분포에 대하여 평균
-
conditional expectation
- conditional distribution에 따른 expectation
-
-
variance
-
variance of f(x)
-
variance of x
-
covariance of x, y
- covariance는 x값과 y값이 얼마나 함께 같이 변동하는가에 대한 지표
- x, y가 independent할 경우 covariance = 0
- x가 증가할 때, y도 증가하는 추세일 경우 covariance > 0
- x가 증가할 때, y가 감소하는 추세일 경우 covariance < 0
- 변수간 상관성을 어느정도 반영함
- 다만, 각 변수의 variance에 따라 그 크기가 정해지기 때문에, 상대적 상관성을 보고자 한다면 variance에 대한 normalization(scaling)이 필요
-
correlation
-
covariance of ,
-
vertor 의 구성 원소들 간 공분산
- (간단하게 표현)
-
-
-
Bayesian probabilities
- 생각보다 처음 접할 때 이해하기 어려운 내용이라 위에서 간단하게 설명하였지만, 개념 위주로 다시 설명
-
frquentist(classical) interpretation of probability
- 확률 : 반복 가능한 임의의 사건의 빈도수
-
Bayesian probalitity
- 확률 : 지식 또는 믿음의 정도를 나타내는 양
- subjectivists(주관주의자) : 지식의 상태는 개인적인 믿음의 정도(degree of belief)로 측정할 수 있음
-
둘의 가장 큰 차이는 “개인적 믿음(의견)“을 개입할 수 있을 것인가 여부와, “추가적인 정보로 인하여 확률이 변화하는지” 여부
- 고전적인 빈도주의적 관점에서는, 확률은 객관적으로 모두에게 동일한 값으로 개인의 믿음이 반영될 여지가 없음
- 베이지안(주관주의적) 관점에서는 확률은 개인의 믿음 그 자체를 나타내며, 추가적 정보를 통하여 그 믿음이 변화할 수 있음
- 불확실성을 정량화하고, 새롭게 수집된 증거를 통해 불확실성을 수정하는 일련의 과정에서 베이지안 관점은 유용하게 이용됨
-
Cox(1946)은 수치값을 degree of belief를 표현하는데에 이용한다면, 그 믿음에 대한 상식을 인코딩한 공리집합이 degrees of belief를 조작하기 위한 유일해 규칙집합을 유도하는데, 이 규칙들이 확률의 sum rule과 product rule과 동일하다는 것을 증명 (말이 좀 어려우나, degree of belief에 대하여 sum rule과 product rule을 동일하게 적용할 수 있다는 뜻)
- 곧, 확률론은 불확실성을 포함하는 상황에 대한 boolean logic의 확장으로 간주할 수 있음
-
polynomial curve fitting의 예로 설명
- data , parameter 에 대하여
-
prior
- 가정한 패러미터(모델)의 확률분포
-
likelihood
- 가정한 패러미터일 때 관측된 데이터셋 이 나타날 정도
- 에 대한 확률 분포가 아니기 때문에 적분값이 1이 되지 않아도 됨
-
posterior
- 가 관측되었을 때, 패러미터 의 확률
- likelihood 는 frequentist / Bayesian양 관점에서 모두 중요 (양쪽 다 모델부에 해당)
-
frequentist
- 가능한 데이터셋 의 분포를 통하여 고정된 매개변수 를 추정
-
MLE(maximum likelihood estimation)
- likelihood 최대화
-
error function은 보통 negative log likelihood로 정의됨
- 이전에 살펴본 바 있는 SSE또한 negative log likelihood이며, 뒤에서 이를 확인할 것
-
bootstrap
- random sampling with replacement을 진행하여 진행하는 테스트/메트릭의 통칭
-
여기서는 그중 한 가지 방법에 대하여 알아봄
- 의 데이터셋에서, N회의 random sampling with replacement을 진행
- 위의 샘플링을 L회 반복
- 결과적으로 size N의 데이터셋 L개를 확보할 수 있음
- 각각의 데이터셋에 대하여 예측치와 실제 매개변수 값과의 차이를 비교하여 매개변수 추정값의 통계적 정확도를 계산할 수 있음
-
cross validation
- training set과 test set을 나누는 방법을 다르게 하여 샘플링한 뒤, test set의 결과를 통하여 각 모델의 성능을 비교
-
Bayesian
- 관측된 데이터셋 를 통하여 불확실한 매개변수 를 확률분포를 통하여 표현
-
MAP(maximum a posteriori)
- posterior 최대화
- 개인의 믿음을 prior의 형태로 반영할 수 있음
- 예를 들어, 동전을 던질 경우 각 면이 나타날 확률은 각 1/2일 것이라는 믿음을 prior에 반영
-
noninformative prior
- 좋지 못한 prior을 바탕으로 추정한 모델은 성능이 떨어지기 때문에, 때로는 prior을 통하여 사전정보를 전달하지 않기도 함
-
Bayesian은 제한사항 때문에 오랫동안 널리 쓰이지 못하였음
-
marginalize over the whole of parameter space
- 예측하거나 모델을 비교할 때 필요
-
MCMC(Markov chain Monte Carlo) 등의 표본 추출 방법이 개발되고, 컴퓨터 연산속도와 메모리 용량이 증가하면서 실용적으로 쓸 수 있게 됨
- Monte Carlo는 대단히 유연하여 다양한 범주의 모델에 대하여 적용이 가능하나, 연산량이 많이 필요함
- 최근에는 variational Bayes나 expectation propagation과 같은 효율적인 결정론적 근사방법들이 개발됨
-
-
The Gaussian distribution
-
univariate Gaussian distribution
-
- mode = mean
- : precision
-
-
multivariate Gaussian distribution
- D : dimension of variable
- : covariance
- : determinant of covariance
-
univariate Gaussian distribution에서 MLE 설명
-
- vector 가 아니라, 독립추출된 N개의 개별 샘플
- 동일한 분포에서 독립적으로 추출되었으므로 IID (independent and identically distributed)
-
- 가우시안 분포의 likelihood
-
모수를 추정할 때, frequentist 관점에서는 보통 likelihood를 최대화하는 모수를 찾음
- 이 과정을 MLE(maximum likelihood estimation)라 함
- 곱을 합으로 변형하여, 좀 더 미분하기 편하게 하기 위해서 보통 likelihood 대신에 log likelihood를 이용함(minimizing negative log likelihood가 가장 일반적)
-
log likelihood
-
에 대하여 log likelihood의 최대값을 찾아, maximum likelihood solution을 얻을 수 있음
- log likelihood를 에 대하여 미분한 뒤, 미분식이 0이 되는 모수를 찾는 과정을 거쳐 구함(과정 생략)
- (sample mean)
-
에 대하여 log likelihood의 최대값을 찾아, maximum likelihood solution을 얻을 수 있음
- log likelihood를 에 대하여 미분한 뒤, 미분식이 0이 되는 모수를 찾는 과정을 거쳐 구함(과정 생략)
- (sample variance)
- 두 모수에 대한 joint maximization이 목적이나, Gaussian distribution에서는 의 솔루션이 과 decoupled되어있기 때문에, 위처럼 별도로 구해도 됨
-
일련의 MLE를 통하여 구한 모수에 있어, variance를 과소평가하게 되는 경향이 있음
- bias의 예시
- overfitting과 관계있음 (데이터에 overfitting되었기 때문에, 원 분포와 괴리 발생)
- MLE를 통하여 mean은 정확하게 구할 수 있지만, variance는 만큼 과소평가하게 됨
-
데이터 포인트의 수가 작을 수록, sample variance는 original distribution의 variance에 비하여 작음
- 어떠한 distribution에서 포인트 N개를 샘플링한 뒤 이 샘플들의 variance를 구할 경우, 이상적으로 샘플링되었다 하더라도 그 결과는 샘플링한 distribution의 variance에 대해 배가 됨
-
unbiased variance
- 데이터 포인트 개수 N이 커질수록 MLE variance의 bias는 감소함
- 유도과정 : [연습문제 1.12]
-
-
-
Curve fitting re-visited
-
MLE
-
negative log likelihood에서, 와 독립인 상수항을 제거한 뒤, 적절하게 스케일링하면 SSE항이 됨
- 에 대하여 MLE를 하는 것과, SSE로 curve fitting하는 것은, 동치
-
negative log likelihood에서, 마찬가지로 precision 에 대하여 MLE를 진행
- 을 먼저 구한 뒤, 이를 사용하여 을 구할 수 있음
-
새로운 변수 x에 대한 predictive distribution
-
MAP
-
에 대한 prior 가정
- (의 mean은 모두 0, variance는 모두 , covariance는 모두 0)인 정규분포로 가정
-
- 여기서의 와 같이, 모수의 분포를 제어하는 변수를 hyperparameter이라 함
- (Bayes’ Theorem)
- maximize posterior
-
minimize negative log posterior
- ridge regression식임을 확인할 수 있음
-
-
Bayesian curve fitting
-
개요
- 위의 MAP에서 prior 를 포함하였지만, 를 점으로 근사하고 있기에, 아직 완전한 베이지안 방식은 아님
- 완전한 베이지안 접근법은 sum rule / product rule을 일관되게 적용해야 하는데, 이는 모든 값에 대한 적분이 필요함
- 이러한 marginalization이 pattern recognition에서의 Bayesian method의 핵심임
-
predictive distribution
-
- : ,의 데이터셋으로 추정한 모델을 통하여, 피처에 대하여 예측한 타겟값
- : 패러미터 의 모델을 통하여 피처에 대하여 예측한 타겟값
- : ,의 데이터셋으로 추정한 모델 패러미터 (parameter posterior)
-
- predictive distribution의 평균과 분산은 x에 종속
-
- : 타겟 변수의 노이즈에서 기인하는 불확실성
- : 의 불확실성에서 기인하는 불확실성
- : unit matrix
- : for
-
-