Bishop PRML - Ch1. Introduction (2)

Posted on August 29, 2020

Probability Theory

uncertainty의 발생 원인
- noise on measurements
- finite size of data sets
probability theory
- 불확실성을 계량화하고, 조작하기 위한 일관된 프레임워크를 제공
decision theory
- 확률론과 결합될 때, 정보가 불완전하고나 애매하더라도 주어진 모든 정보를 이용하여 최적의 예측을 할 수 있게 함
The Rules of Probability
- sum rule
  - marginal probability는 나며지 변수들에 대한 joint probability들의 총합
  - $p(X) = \sum_Yp(X,Y)$
- product rule
  - joint probability는 marginal probability와 conditional probability의 곱
  - $p(X, Y) = p(Y{\mid}X)p(X)$
- Bayes’ Theorem
  - product rule, 대칭성으로 유도
  - $p(X, Y) = p(Y{\mid}X)p(X) = p(X{\mid}Y)p(Y)$
  - $p(Y{\mid}X) = {p(X{\mid}Y)p(Y)\over{p(X)}}$
    - sum rule에서 전개시
      - $p(X) = \sum_Yp(X{\mid}Y)p(Y)$
  - marginal probability는 normalization constant로 볼 수도 있음
    - 주) $p(Y{\mid}X) = {p(X{\mid}Y)p(Y)\over{\sum_Yp(X,Y)}} = {p(X,Y)\over{\sum_Yp(X,Y)}} = {p(X{\mid}Y)p(Y)\over{\sum_Yp(X{\mid}Y)p(Y)}}$
      - joint probability를 normalization ( $\sum_Yp(Y{\mid}X) = 1$ )
    - generative model에 대한 이해가 있으면 normalization constant라는 표현을 더 쉽게 이해할 수 있음
      - X가 데이터, Y가 레이블일 경우
      - posterior $p(Y{\mid}X)$ (피처 X에 대하여 Y레이블에 속할 확률)을 구하는 것이 목적
      - likelihood $p(X{\mid}Y)$ 는 레이블 별 피처 분포로, 보통 모델링을 진행함 (multivariate normal distribution 가정시 QDA/LDA)
      - prior $p(Y)$ 는 레이블 분포로, 모델링하거나 학습 데이터셋의 분포를 이용함
      - marginal probability $p(X)$ 는 전체 샘플에서 각 샘플이 얼마나 있냐는 텀으로, 곧 normalization을 위한 텀이 됨. 각각의 데이터를 별개로 본다면, 무시해도 무방 (각 데이터마다 업데이트 될 것이므로)
  - 특히, 아래 prior / likelihood / posterior에 대한 개념은 Frequentist와 Bayesian관점의 차이를 보여주며, 대단히 중요
    - Y로 모수 분포를 쓰기도 하고 레이블 분포를 쓰기도 하는데, 레이블 분포가 모수 분포에 포함되어 사실은 같은 개념이지만 posterior을 이용하는 방식이 상당히 달라지기 때문에 구분하여 이해하는 편이 헷갈리지 않을 수 있음
      - MAP(maximum a posteriori)에서는 Y로 모수를 쓰고, generative model에서는 Y로 레이블 분포를 쓴다고 이해하면 편함
      - Y가 모수 분포일 경우
        
        prior $p(Y)$
        
        관측 전 확률 / hypothesis
        
        가정한 모수 분포
        
        likelihood $P(X{\mid}Y)$
        
        가능도
        
        hypothesis가 참일 때 데이터가 관측될 확률
        
        보통 확률분포 모델이 되며, 모수를 변수로 하는 함수가 됨
        
        posterior $p(Y{\mid}X)$
        
        관측 후 확률
        
        데이터 X가 관측되었을 때, 모수 Y가 참일 확률
        
        MAP에서는 posterior을 maximize하는 모수를 찾음
      - Y가 레이블 분포일 경우
        
        prior $p(Y)$
        
        관측 전 확률 / hypothesis
        
        관측 전에 가정한 모델의 레이블 분포(Y를 관측할 확률)
        
        보통 training data set의 레이블 분포를 이용함
        
        likelihood $p(X{\mid}Y)$
        
        가능도
        
        Y레이블 내에서 데이터 X의 분포
        
        보통 training data set의 분포를 이용하여 모델링 진행함 (가우시안 분포 등으로 가정)
        
        posterior $p(Y{\mid}X)$
        
        관측 후 확률
        
        데이터 X를 관측하였을 때, Y가 참일 확률
        
        maximum posterior을 구하여 레이블을 찾음
      - 둘로 나누어 설명했지만 사실 동일한 개념
  - $p(X, Y) = p(X)p(Y)$ 인 경우, 두 확률변수는 independent
    - $p(X, Y) = p(Y{\mid}X)p(X) = p(X{\mid}Y)p(Y) = p(X)p(Y)$
    - $p(Y{\mid}X) = p(Y), p(X{\mid}Y) = p(X)$
    - 각 확률변수가 다른 확률변수의 영향을 받지 않음
    - 이 때의 독립은 완전독립
    - 추후 conditionally independent개념이 naive bayes classifier에서 중요하게 다루어짐
probability densities
- 연속적인 변수에 대한 확률분포
- $p(x\in{(a,b)}) = \int_a^b p(x)\,dx$
- $p(x) \geq 0$
- $\int_{-\infty}^\infty p(x)\,dx = 1$
- $p(x)$ 를 PDF(probability density function)이라 함
- 변수에 대한 비선형 변환시 확률밀도함수는 Jacobian에 의해 simple function(discrete한 경우)와는 다르게 변화함
  - $x = g(y)$
  - $\argmax_x\,f(x) = \hat{x}$
  - $\argmax_y\,f(g(y)) = \hat{y}$
  - simple function의 경우, $\hat{x} = g(\hat{y})$ 가 자명함
  - $p_y(y) = p_x(x)\lvert{dx\over{dy}}\rvert = p_x(g(y))\lvert{g'(y)}\rvert$
  - PDF의 최대값은 어떤 변수를 선택하냐에 따라 다름
  - 무슨 말인고 하니, $x$ 에 대한 어떤 분포의 최대값 $\hat{x}$ 을 구할 때, $x = g(y)$ 를 만족하는 매개변수 $y$ 에 대하여, $\hat{x} \neq g(\hat{y})$ 일 수 있다는 의미
  - 유도과정 : [연습문제 1.4]
- $x$ 가 $(-\infty,z)$ 에 있을 확률은 CDF(cumulative distribution function)으로 표현됨
  - $P(z) = \int_\infty^zp(x)\,dx$
  - $P'(x) = p(x)$
- joint probability density
  - $p(\mathbf{x}) = p(x_1,\cdots,x_D)$
  - $p(\mathbf{x}) \geq 0$
  - $\int p(\mathbf{x})\,d\mathbf{x} = 1$
- x가 discrete할 경우, p(x)는 probability mass function이라고 하기도 함
- measure theory에서 실수 변수를 $\Delta$ 너비의 인터벌로 쪼갠 뒤, 각 인터벌의 분포를 discrete로 가정 후, $\lim_{\Delta\to{0}}$ 를 취하여 continuous한 경우에 대한 식을 얻을 수 있음
- sum rule
  - $p(x) = \int{p(x,y)}\,dy$
- product rule
  - $p(x, y) = p(y{\mid}x)p(x)$
Expectations and covariances
- Expectation of f(x)
  - discrete distribution
    - $\mathbb{E}[f] = \sum_xp(x)f(x)$
  - continuous distribution
    - $\mathbb{E}[f] = \int p(x)f(x)\,dx$
  - 유한개의 포인트를 샘플링하였을 경우, 유한요소법에 따른 수치해석적 근사
    - $\mathbb{E}[f] \simeq {1\over{N}}\sum_{n=1}^Nf(x_n)$
  - 다변수 함수에 대한 expectation
    - 어떤 변수에 대하여 평균을 낼 지 밑 첨자로 표현
    - $\mathbb{E}_x[f(x, y)]$
      - 함수 $f(x, y)$ 를 $x$ 의 분포에 대하여 평균
  - conditional expectation
    - conditional distribution에 따른 expectation
    - $\mathbb{E}_x[f{\mid}y] = \sum_xp(x{\mid}y)f(x)$
- variance
  - variance of f(x)
    - $\operatorname{var}[f] = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] = \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2$
    - $\mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] \\ = \mathbb{E}[f(x)^2 -2f(x)\mathbb{E}[f(x)] + \mathbb{E}[f(x)]^2] \\ = \mathbb{E}[f(x)^2] -2\mathbb{E}[f(x)]^2 + \mathbb{E}[f(x)]^2 \\ = \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2$
  - variance of x
    - $\operatorname{var}[x] = \mathbb{E}[(x - \mathbb{E}[x])^2] = \mathbb{E}[x^2] - \mathbb{E}[x]^2$
  - covariance of x, y
    - $\operatorname{cov}[x, y] = \mathbb{E}_{x,y}[\{x - \mathbb{E}[x]\}\{y - \mathbb{E}[y]\}] = \mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y]$
    - covariance는 x값과 y값이 얼마나 함께 같이 변동하는가에 대한 지표
    - x, y가 independent할 경우 covariance = 0
    - x가 증가할 때, y도 증가하는 추세일 경우 covariance > 0
    - x가 증가할 때, y가 감소하는 추세일 경우 covariance < 0
    - 변수간 상관성을 어느정도 반영함
    - 다만, 각 변수의 variance에 따라 그 크기가 정해지기 때문에, 상대적 상관성을 보고자 한다면 variance에 대한 normalization(scaling)이 필요
    - correlation
      - $\rho_{x,y} = \operatorname{corr}[x,y] = {\operatorname{cov}[x,y]\over{ \sqrt{\operatorname{var}[x]\operatorname{var}[y]}}}$
  - covariance of $\mathbf{x}$ , $\mathbf{y}$
    - $\operatorname{cov}[\mathbf{x}, \mathbf{y}] = \mathbb{E}_{\mathbf{x},\mathbf{y}}[\{\mathbf{x} - \mathbb{E}[\mathbf{x}]\}\{\mathbf{y}^\mathsf{T} - \mathbb{E}[\mathbf{y}^\mathsf{T}]\}] = \mathbb{E}_{\mathbf{x},\mathbf{y}}[\mathbf{x}\mathbf{y}^\mathsf{T}] - \mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^\mathsf{T}]$
  - vertor $\mathbf{x}$ 의 구성 원소들 간 공분산
    - $\operatorname{cov}[\mathbf{x}] \equiv \operatorname{cov}[\mathbf{x}, \mathbf{x}]$ (간단하게 표현)
Bayesian probabilities
- 생각보다 처음 접할 때 이해하기 어려운 내용이라 위에서 간단하게 설명하였지만, 개념 위주로 다시 설명
- frquentist(classical) interpretation of probability
  - 확률 : 반복 가능한 임의의 사건의 빈도수
- Bayesian probalitity
  - 확률 : 지식 또는 믿음의 정도를 나타내는 양
  - subjectivists(주관주의자) : 지식의 상태는 개인적인 믿음의 정도(degree of belief)로 측정할 수 있음
- 둘의 가장 큰 차이는 “개인적 믿음(의견)“을 개입할 수 있을 것인가 여부와, “추가적인 정보로 인하여 확률이 변화하는지” 여부
  - 고전적인 빈도주의적 관점에서는, 확률은 객관적으로 모두에게 동일한 값으로 개인의 믿음이 반영될 여지가 없음
  - 베이지안(주관주의적) 관점에서는 확률은 개인의 믿음 그 자체를 나타내며, 추가적 정보를 통하여 그 믿음이 변화할 수 있음
  - 불확실성을 정량화하고, 새롭게 수집된 증거를 통해 불확실성을 수정하는 일련의 과정에서 베이지안 관점은 유용하게 이용됨
  - Cox(1946)은 수치값을 degree of belief를 표현하는데에 이용한다면, 그 믿음에 대한 상식을 인코딩한 공리집합이 degrees of belief를 조작하기 위한 유일해 규칙집합을 유도하는데, 이 규칙들이 확률의 sum rule과 product rule과 동일하다는 것을 증명 (말이 좀 어려우나, degree of belief에 대하여 sum rule과 product rule을 동일하게 적용할 수 있다는 뜻)
    - 곧, 확률론은 불확실성을 포함하는 상황에 대한 boolean logic의 확장으로 간주할 수 있음
- polynomial curve fitting의 예로 설명
  - data $\mathcal{D} = \{t_1,\cdots,t_N\}$ , parameter $\mathbf{w} = (w_1,\cdots,w_M)^\mathsf{T}$ 에 대하여
  - $p(\mathbf{w}{\mid}\mathcal{D}) = {p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})\over{p(\mathcal{D})}}$
  - prior
    - $p(\mathbf{w})$
    - 가정한 패러미터(모델)의 확률분포
  - likelihood
    - $p(\mathcal{D}{\mid}\mathbf{w})$
    - 가정한 패러미터일 때 관측된 데이터셋 $\mathcal{D}$ 이 나타날 정도
    - $\mathbf{w}$ 에 대한 확률 분포가 아니기 때문에 적분값이 1이 되지 않아도 됨
  - posterior
    - $p(\mathbf{w}{\mid}\mathcal{D})$
    - $\mathcal{D}$ 가 관측되었을 때, 패러미터 $\mathbf{w}$ 의 확률
  - $p(\mathcal{D}) = \int{p(\mathbf{w},\mathcal{D})}\,d\mathbf{w} = \int{p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})}\,d\mathbf{w}$
  - $p(\mathbf{w}{\mid}\mathcal{D}) = {p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})\over{\int{p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})}\,d\mathbf{w}}}$
- likelihood $p(\mathcal{D}{\mid}\mathbf{w})$ 는 frequentist / Bayesian양 관점에서 모두 중요 (양쪽 다 모델부에 해당)
- frequentist
  - 가능한 데이터셋 $\mathcal{D}$ 의 분포를 통하여 고정된 매개변수 $\mathbf{w}$ 를 추정
  - MLE(maximum likelihood estimation)
    - likelihood $p(\mathcal{D}{\mid}\mathbf{w})$ 최대화
    - error function은 보통 negative log likelihood로 정의됨
      - 이전에 살펴본 바 있는 SSE또한 negative log likelihood이며, 뒤에서 이를 확인할 것
  - bootstrap
    - random sampling with replacement을 진행하여 진행하는 테스트/메트릭의 통칭
    - 여기서는 그중 한 가지 방법에 대하여 알아봄
      - $X = {x_1,\cdots,x_N}$ 의 데이터셋에서, N회의 random sampling with replacement을 진행
      - 위의 샘플링을 L회 반복
      - 결과적으로 size N의 데이터셋 L개를 확보할 수 있음
      - 각각의 데이터셋에 대하여 예측치와 실제 매개변수 값과의 차이를 비교하여 매개변수 추정값의 통계적 정확도를 계산할 수 있음
  - cross validation
    - training set과 test set을 나누는 방법을 다르게 하여 샘플링한 뒤, test set의 결과를 통하여 각 모델의 성능을 비교
- Bayesian
  - 관측된 데이터셋 $\mathcal{D}$ 를 통하여 불확실한 매개변수 $\mathbf{w}$ 를 확률분포를 통하여 표현
  - MAP(maximum a posteriori)
    - posterior $p(\mathbf{w}{\mid}\mathcal{D})$ 최대화
    - 개인의 믿음을 prior의 형태로 반영할 수 있음
    - 예를 들어, 동전을 던질 경우 각 면이 나타날 확률은 각 1/2일 것이라는 믿음을 prior에 반영
  - noninformative prior
    - 좋지 못한 prior을 바탕으로 추정한 모델은 성능이 떨어지기 때문에, 때로는 prior을 통하여 사전정보를 전달하지 않기도 함
- Bayesian은 제한사항 때문에 오랫동안 널리 쓰이지 못하였음
  - marginalize over the whole of parameter space
    - 예측하거나 모델을 비교할 때 필요
  - MCMC(Markov chain Monte Carlo) 등의 표본 추출 방법이 개발되고, 컴퓨터 연산속도와 메모리 용량이 증가하면서 실용적으로 쓸 수 있게 됨
    - Monte Carlo는 대단히 유연하여 다양한 범주의 모델에 대하여 적용이 가능하나, 연산량이 많이 필요함
  - 최근에는 variational Bayes나 expectation propagation과 같은 효율적인 결정론적 근사방법들이 개발됨
The Gaussian distribution
- univariate Gaussian distribution
  - $\mathcal{N}(x{\mid}\mu,\sigma^2) = {1\over{(2\pi\sigma^2)^{1/2}}}\exp\left\{-{1\over{2\sigma^2}}(x-\mu)^2\right\}$
    - $\mathcal{N}(x{\mid}\mu,\sigma^2) > 0$
    - $\int_{-\infty}^\infty\mathcal{N}(x{\mid}\mu,\sigma^2)\,dx= 1$
    - $\mathbb{E}[x] = \int_{-\infty}^\infty\mathcal{N}(x{\mid}\mu,\sigma^2)x\,dx = \mu$
    - $\mathbb{E}[x^2] = \int_{-\infty}^\infty\mathcal{N}(x{\mid}\mu,\sigma^2)x^2\,dx = \mu^2 + \sigma^2$
    - $\operatorname{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 = \sigma^2$
    - mode = mean
    - $\beta = 1/\sigma^2$ : precision
- multivariate Gaussian distribution
  - $\mathcal{N}(\mathbf{x}{\mid}\boldsymbol{\mu},\boldsymbol{\Sigma}) = {1\over{(2\pi)^{D/2}}}{1\over{\lvert\boldsymbol{\Sigma}\rvert^{1/2}}}\exp\left\{-{1\over{2}}(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}$
  - D : dimension of variable
  - $\mathbf{x} = (x_1,\cdots,x_N)^\mathsf{T}$
  - $\boldsymbol{\Sigma}$ : covariance
  - $\lvert\boldsymbol{\Sigma}\rvert$ : determinant of covariance
- univariate Gaussian distribution에서 MLE 설명
  - $\textsf{\textbf{x}} = (x_1,\cdots,x_N)^\mathsf{T}$
    - vector $\mathbf{x} = (x_1,\cdots,x_D)^\mathsf{T}$ 가 아니라, 독립추출된 N개의 개별 샘플
  - 동일한 분포에서 독립적으로 추출되었으므로 IID (independent and identically distributed)
  - $p(\textsf{\textbf{x}}{\mid}\mu,\sigma^2) = \prod_{n=1}^N\mathcal{N}(x_n{\mid}\mu,\sigma^2)$
    - 가우시안 분포의 likelihood
  - 모수를 추정할 때, frequentist 관점에서는 보통 likelihood를 최대화하는 모수를 찾음
    - 이 과정을 MLE(maximum likelihood estimation)라 함
  - 곱을 합으로 변형하여, 좀 더 미분하기 편하게 하기 위해서 보통 likelihood 대신에 log likelihood를 이용함(minimizing negative log likelihood가 가장 일반적)
  - log likelihood
    - $\ln{p(\textsf{\textbf{x}}{\mid}\mu, \sigma^2)} = -{1\over{2\sigma^2}}\sum_{n=1}^N(x_n - \mu)^2 - {N\over{2}}\ln\sigma^2 - {N\over{2}}\ln(2\pi)$
    - $\mu$ 에 대하여 log likelihood의 최대값을 찾아, maximum likelihood solution을 얻을 수 있음
      - log likelihood를 $\mu$ 에 대하여 미분한 뒤, 미분식이 0이 되는 모수를 찾는 과정을 거쳐 구함(과정 생략)
      - $\mu_{ML} = {1\over{N}}\sum_{n=1}^Nx_n$ (sample mean)
    - $\sigma^2$ 에 대하여 log likelihood의 최대값을 찾아, maximum likelihood solution을 얻을 수 있음
      - log likelihood를 $\sigma^2$ 에 대하여 미분한 뒤, 미분식이 0이 되는 모수를 찾는 과정을 거쳐 구함(과정 생략)
      - $\sigma^2_{ML} = {1\over{N}}\sum_{n=1}^N(x_n - \mu_{ML})^2$ (sample variance)
    - 두 모수에 대한 joint maximization이 목적이나, Gaussian distribution에서는 $\mu$ 의 솔루션이 $\sigma^2$ 과 decoupled되어있기 때문에, 위처럼 별도로 구해도 됨
  - 일련의 MLE를 통하여 구한 모수에 있어, variance를 과소평가하게 되는 경향이 있음
    - bias의 예시
    - overfitting과 관계있음 (데이터에 overfitting되었기 때문에, 원 분포와 괴리 발생)
    - $\mathbb{E}[\mu_{ML}] = \mu$
    - $\mathbb{E}[\sigma^2_{ML}] = \left({N-1\over{N}}\right)\sigma^2$
    - MLE를 통하여 mean은 정확하게 구할 수 있지만, variance는 $(N-1/N)$ 만큼 과소평가하게 됨
    - 데이터 포인트의 수가 작을 수록, sample variance는 original distribution의 variance에 비하여 작음
      - 어떠한 distribution에서 포인트 N개를 샘플링한 뒤 이 샘플들의 variance를 구할 경우, 이상적으로 샘플링되었다 하더라도 그 결과는 샘플링한 distribution의 variance에 대해 $(N-1/N)$ 배가 됨
    - unbiased variance
      - $\tilde{\sigma}^2 = {N\over{N-1}}\sigma_{ML}^2 = {1\over{N-1}}\sum_{n=1}^N(x_n-\mu_{ML})^2$
    - 데이터 포인트 개수 N이 커질수록 MLE variance의 bias는 감소함
    - 유도과정 : [연습문제 1.12]
Curve fitting re-visited
- $\textsf{\textbf{x}} = (x_1,\cdots,x_N)^\mathsf{T}$
- $\textsf{\textbf{t}} = (t_1,\cdots,t_N)^\mathsf{T}$
- $p(t{\mid}x,\mathbf{w},\beta) = \mathcal{N}(t{\mid}y(x,\mathbf{w}),\beta^{-1})$
- $p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta) = \prod_{n=1}^N\mathcal{N}(t_n{\mid}y(x_n,\mathbf{w}),\beta^{-1})$
- MLE
  - $\ln{p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta)} = -{\beta\over{2}}\sum_{n=1}^N\{y(x_n, \mathbf{w})-t_n\}^2+{N\over{2}}\ln\beta-{N\over{2}}\ln(2\pi)$
  - negative log likelihood에서, $\mathbf{w}$ 와 독립인 상수항을 제거한 뒤, 적절하게 스케일링하면 SSE항이 됨
    - $-\ln{p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta)} = {\beta\over{2}}\sum_{n=1}^N\{y(x_n, \mathbf{w})-t_n\}^2-{N\over{2}}\ln\beta+{N\over{2}}\ln(2\pi)$
    - ${1\over{2}}\sum_{n=1}^N\{y(x_n, \mathbf{w})-t_n\}^2$
  - $\mathbf{w}$ 에 대하여 MLE를 하는 것과, SSE로 curve fitting하는 것은, 동치
  - negative log likelihood에서, 마찬가지로 precision $\beta$ 에 대하여 MLE를 진행
    - ${1\over{\beta_{ML}}} = {1\over{N}}\sum_{n=1}^N\{y(x_n, \mathbf{w}_{ML})-t_n\}^2$
    - $\mathbf{w}_{ML}$ 을 먼저 구한 뒤, 이를 사용하여 $\beta_{ML}$ 을 구할 수 있음
  - 새로운 변수 x에 대한 predictive distribution
    - $p(t{\mid}x,\mathbf{w}_{ML},\beta_{ML}) = \mathcal{N}(t{\mid}y(x,\mathbf{w}_{ML}),\beta_{ML}^{-1})$
- MAP
  - $\mathbf{w}$ 에 대한 prior 가정
    - $\boldsymbol{\mu}=\mathbf{0}, \boldsymbol{\Sigma}=\alpha^{-1}\mathbf{I}$ ( $w_n$ 의 mean은 모두 0, variance는 모두 $\alpha^{-1}$ , covariance는 모두 0)인 정규분포로 가정
    - $p(\mathbf{w}{\mid}\alpha) = \mathcal{N}(\mathbf{w}{\mid}\mathbf{0},\alpha^{-1},\mathbf{I}) = \left({\alpha\over{2\pi}}\right)^{(M+1)/2}\exp\left\{-{\alpha\over{2}}\mathbf{w}^\mathsf{T}\mathbf{w}\right\}$
      - 여기서의 $\alpha$ 와 같이, 모수의 분포를 제어하는 변수를 hyperparameter이라 함
    - $p(\mathbf{w}{\mid}\textsf{\textbf{x}},\textsf{\textbf{t}},\alpha,\beta)\propto p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta)p(\mathbf{w}{\mid}\alpha)$ (Bayes’ Theorem)
    - maximize posterior $\prod_{n=1}^N\mathcal{N}(t_n{\mid}y(x_n,\mathbf{w}),\beta^{-1})\cdot\left({\alpha\over{2\pi}}\right)^{(M+1)/2}\exp\left\{-{\alpha\over{2}}\mathbf{w}^\mathsf{T}\mathbf{w}\right\}$
    - minimize negative log posterior ${\beta\over{2}}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+{\alpha\over{2}}\mathbf{w}^\mathsf{T}\mathbf{w}$
      - ridge regression식임을 확인할 수 있음
Bayesian curve fitting
- 개요
  - 위의 MAP에서 prior $p(\mathbf{w}{\mid}\alpha)$ 를 포함하였지만, $\mathbf{w}$ 를 점으로 근사하고 있기에, 아직 완전한 베이지안 방식은 아님
  - 완전한 베이지안 접근법은 sum rule / product rule을 일관되게 적용해야 하는데, 이는 모든 $\mathbf{w}$ 값에 대한 적분이 필요함
  - 이러한 marginalization이 pattern recognition에서의 Bayesian method의 핵심임
- predictive distribution
  - $p(t{\mid}x,\textsf{\textbf{x}},\textsf{\textbf{t}}) = {\int}p(t{\mid}x,\mathbf{w})p(\mathbf{w}{\mid}\textsf{\textbf{x}},\textsf{\textbf{t}})\,d\mathbf{w}$
    - $p(t{\mid}x,\textsf{\textbf{x}},\textsf{\textbf{t}})$ : $\textsf{\textbf{x}}$ , $\textsf{\textbf{t}}$ 의 데이터셋으로 추정한 모델을 통하여, $x$ 피처에 대하여 예측한 타겟값 $t$
    - $p(t{\mid}x,\mathbf{w})$ : 패러미터 $\mathbf{w}$ 의 모델을 통하여 $x$ 피처에 대하여 예측한 타겟값 $t$
    - $p(\mathbf{w}{\mid}\textsf{\textbf{x}},\textsf{\textbf{t}})$ : $\textsf{\textbf{x}}$ , $\textsf{\textbf{t}}$ 의 데이터셋으로 추정한 모델 패러미터 $\mathbf{w}$ (parameter posterior)
  - $p(t{\mid}x,\textsf{\textbf{x}},\textsf{\textbf{t}}) = \mathcal{N}(t{\mid}m(x), s^2(x))$
    - predictive distribution의 평균과 분산은 x에 종속
    - $m(x) = \beta\boldsymbol{\phi}(x)^\mathsf{T}\mathbf{S}\sum_{n=1}^N\phi(x_n)t_n$
    - $s^2(x) = \beta^{-1}+\boldsymbol{\phi}(x)^\mathsf{T}\mathbf{S}\boldsymbol{\phi}(x)$
      - $\beta^{-1}$ : 타겟 변수의 노이즈에서 기인하는 불확실성
      - $\boldsymbol{\phi}(x)^\mathsf{T}\mathbf{S}\boldsymbol{\phi}(x)$ : $\mathbf{w}$ 의 불확실성에서 기인하는 불확실성
    - $\mathbf{S}^{-1} = \alpha\mathbf{I}+\beta\sum_{n=1}^N\boldsymbol{\phi}(x_n)\boldsymbol{\phi}(x_n)^\mathsf{T}$
    - $\mathbf{I}$ : unit matrix
    - $\boldsymbol{\phi}(x)$ : $\phi_i(x) = x^i$ for $i=0,\cdots,M$

Machine Learning

ML Book Bishop PRML