← All Articles

Bishop PRML - Ch1. Introduction (2)

Posted on

Probability Theory

  • uncertainty의 발생 원인

    • noise on measurements
    • finite size of data sets
  • probability theory

    • 불확실성을 계량화하고, 조작하기 위한 일관된 프레임워크를 제공
  • decision theory

    • 확률론과 결합될 때, 정보가 불완전하고나 애매하더라도 주어진 모든 정보를 이용하여 최적의 예측을 할 수 있게 함
  • The Rules of Probability

    • sum rule

      • marginal probability는 나며지 변수들에 대한 joint probability들의 총합
      • p(X)=Yp(X,Y)p(X) = \sum_Yp(X,Y)
    • product rule

      • joint probability는 marginal probability와 conditional probability의 곱
      • p(X,Y)=p(YX)p(X)p(X, Y) = p(Y{\mid}X)p(X)
    • Bayes’ Theorem

      • product rule, 대칭성으로 유도
      • p(X,Y)=p(YX)p(X)=p(XY)p(Y)p(X, Y) = p(Y{\mid}X)p(X) = p(X{\mid}Y)p(Y)
      • p(YX)=p(XY)p(Y)p(X)p(Y{\mid}X) = {p(X{\mid}Y)p(Y)\over{p(X)}}

        • sum rule에서 전개시

          • p(X)=Yp(XY)p(Y)p(X) = \sum_Yp(X{\mid}Y)p(Y)
      • marginal probability는 normalization constant로 볼 수도 있음

        • 주) p(YX)=p(XY)p(Y)Yp(X,Y)=p(X,Y)Yp(X,Y)=p(XY)p(Y)Yp(XY)p(Y)p(Y{\mid}X) = {p(X{\mid}Y)p(Y)\over{\sum_Yp(X,Y)}} = {p(X,Y)\over{\sum_Yp(X,Y)}} = {p(X{\mid}Y)p(Y)\over{\sum_Yp(X{\mid}Y)p(Y)}}

          • joint probability를 normalization (Yp(YX)=1\sum_Yp(Y{\mid}X) = 1)
        • generative model에 대한 이해가 있으면 normalization constant라는 표현을 더 쉽게 이해할 수 있음

          • X가 데이터, Y가 레이블일 경우
          • posterior p(YX)p(Y{\mid}X) (피처 X에 대하여 Y레이블에 속할 확률)을 구하는 것이 목적
          • likelihood p(XY)p(X{\mid}Y)는 레이블 별 피처 분포로, 보통 모델링을 진행함 (multivariate normal distribution 가정시 QDA/LDA)
          • prior p(Y)p(Y)는 레이블 분포로, 모델링하거나 학습 데이터셋의 분포를 이용함
          • marginal probability p(X)p(X)는 전체 샘플에서 각 샘플이 얼마나 있냐는 텀으로, 곧 normalization을 위한 텀이 됨. 각각의 데이터를 별개로 본다면, 무시해도 무방 (각 데이터마다 업데이트 될 것이므로)
      • 특히, 아래 prior / likelihood / posterior에 대한 개념은 Frequentist와 Bayesian관점의 차이를 보여주며, 대단히 중요

        • Y로 모수 분포를 쓰기도 하고 레이블 분포를 쓰기도 하는데, 레이블 분포가 모수 분포에 포함되어 사실은 같은 개념이지만 posterior을 이용하는 방식이 상당히 달라지기 때문에 구분하여 이해하는 편이 헷갈리지 않을 수 있음

          • MAP(maximum a posteriori)에서는 Y로 모수를 쓰고, generative model에서는 Y로 레이블 분포를 쓴다고 이해하면 편함
          • Y가 모수 분포일 경우

            • prior p(Y)p(Y)

              • 관측 전 확률 / hypothesis
              • 가정한 모수 분포
            • likelihood P(XY)P(X{\mid}Y)

              • 가능도
              • hypothesis가 참일 때 데이터가 관측될 확률
              • 보통 확률분포 모델이 되며, 모수를 변수로 하는 함수가 됨
            • posterior p(YX)p(Y{\mid}X)

              • 관측 후 확률
              • 데이터 X가 관측되었을 때, 모수 Y가 참일 확률
              • MAP에서는 posterior을 maximize하는 모수를 찾음
          • Y가 레이블 분포일 경우

            • prior p(Y)p(Y)

              • 관측 전 확률 / hypothesis
              • 관측 전에 가정한 모델의 레이블 분포(Y를 관측할 확률)
              • 보통 training data set의 레이블 분포를 이용함
            • likelihood p(XY)p(X{\mid}Y)

              • 가능도
              • Y레이블 내에서 데이터 X의 분포
              • 보통 training data set의 분포를 이용하여 모델링 진행함 (가우시안 분포 등으로 가정)
            • posterior p(YX)p(Y{\mid}X)

              • 관측 후 확률
              • 데이터 X를 관측하였을 때, Y가 참일 확률
              • maximum posterior을 구하여 레이블을 찾음
          • 둘로 나누어 설명했지만 사실 동일한 개념
      • p(X,Y)=p(X)p(Y)p(X, Y) = p(X)p(Y)인 경우, 두 확률변수는 independent

        • p(X,Y)=p(YX)p(X)=p(XY)p(Y)=p(X)p(Y)p(X, Y) = p(Y{\mid}X)p(X) = p(X{\mid}Y)p(Y) = p(X)p(Y)
        • p(YX)=p(Y),p(XY)=p(X)p(Y{\mid}X) = p(Y), p(X{\mid}Y) = p(X)
        • 각 확률변수가 다른 확률변수의 영향을 받지 않음
        • 이 때의 독립은 완전독립
        • 추후 conditionally independent개념이 naive bayes classifier에서 중요하게 다루어짐
  • probability densities

    • 연속적인 변수에 대한 확률분포
    • p(x(a,b))=abp(x)dxp(x\in{(a,b)}) = \int_a^b p(x)\,dx
    • p(x)0p(x) \geq 0
    • p(x)dx=1\int_{-\infty}^\infty p(x)\,dx = 1
    • p(x)p(x)를 PDF(probability density function)이라 함
    • 변수에 대한 비선형 변환시 확률밀도함수는 Jacobian에 의해 simple function(discrete한 경우)와는 다르게 변화함

      • x=g(y)x = g(y)
      • arg maxxf(x)=x^\argmax_x\,f(x) = \hat{x}
      • arg maxyf(g(y))=y^\argmax_y\,f(g(y)) = \hat{y}
      • simple function의 경우, x^=g(y^)\hat{x} = g(\hat{y})가 자명함
      • py(y)=px(x)dxdy=px(g(y))g(y)p_y(y) = p_x(x)\lvert{dx\over{dy}}\rvert = p_x(g(y))\lvert{g'(y)}\rvert
      • PDF의 최대값은 어떤 변수를 선택하냐에 따라 다름
      • 무슨 말인고 하니, xx에 대한 어떤 분포의 최대값 x^\hat{x}을 구할 때, x=g(y)x = g(y)를 만족하는 매개변수 yy에 대하여, x^g(y^)\hat{x} \neq g(\hat{y})일 수 있다는 의미
      • 유도과정 : [연습문제 1.4]
    • xx(,z)(-\infty,z)에 있을 확률은 CDF(cumulative distribution function)으로 표현됨

      • P(z)=zp(x)dxP(z) = \int_\infty^zp(x)\,dx
      • P(x)=p(x)P'(x) = p(x)
    • joint probability density

      • p(x)=p(x1,,xD)p(\mathbf{x}) = p(x_1,\cdots,x_D)
      • p(x)0p(\mathbf{x}) \geq 0
      • p(x)dx=1\int p(\mathbf{x})\,d\mathbf{x} = 1
    • x가 discrete할 경우, p(x)는 probability mass function이라고 하기도 함
    • measure theory에서 실수 변수를 Δ\Delta너비의 인터벌로 쪼갠 뒤, 각 인터벌의 분포를 discrete로 가정 후, limΔ0\lim_{\Delta\to{0}}를 취하여 continuous한 경우에 대한 식을 얻을 수 있음
    • sum rule

      • p(x)=p(x,y)dyp(x) = \int{p(x,y)}\,dy
    • product rule

      • p(x,y)=p(yx)p(x)p(x, y) = p(y{\mid}x)p(x)
  • Expectations and covariances

    • Expectation of f(x)

      • discrete distribution

        • E[f]=xp(x)f(x)\mathbb{E}[f] = \sum_xp(x)f(x)
      • continuous distribution

        • E[f]=p(x)f(x)dx\mathbb{E}[f] = \int p(x)f(x)\,dx
      • 유한개의 포인트를 샘플링하였을 경우, 유한요소법에 따른 수치해석적 근사

        • E[f]1Nn=1Nf(xn)\mathbb{E}[f] \simeq {1\over{N}}\sum_{n=1}^Nf(x_n)
      • 다변수 함수에 대한 expectation

        • 어떤 변수에 대하여 평균을 낼 지 밑 첨자로 표현
        • Ex[f(x,y)]\mathbb{E}_x[f(x, y)]

          • 함수 f(x,y)f(x, y)xx의 분포에 대하여 평균
      • conditional expectation

        • conditional distribution에 따른 expectation
        • Ex[fy]=xp(xy)f(x)\mathbb{E}_x[f{\mid}y] = \sum_xp(x{\mid}y)f(x)
    • variance

      • variance of f(x)

        • var[f]=E[(f(x)E[f(x)])2]=E[f(x)2]E[f(x)]2\operatorname{var}[f] = \mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] = \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2
        • E[(f(x)E[f(x)])2]=E[f(x)22f(x)E[f(x)]+E[f(x)]2]=E[f(x)2]2E[f(x)]2+E[f(x)]2=E[f(x)2]E[f(x)]2\mathbb{E}[(f(x) - \mathbb{E}[f(x)])^2] \\ = \mathbb{E}[f(x)^2 -2f(x)\mathbb{E}[f(x)] + \mathbb{E}[f(x)]^2] \\ = \mathbb{E}[f(x)^2] -2\mathbb{E}[f(x)]^2 + \mathbb{E}[f(x)]^2 \\ = \mathbb{E}[f(x)^2] - \mathbb{E}[f(x)]^2
      • variance of x

        • var[x]=E[(xE[x])2]=E[x2]E[x]2\operatorname{var}[x] = \mathbb{E}[(x - \mathbb{E}[x])^2] = \mathbb{E}[x^2] - \mathbb{E}[x]^2
      • covariance of x, y

        • cov[x,y]=Ex,y[{xE[x]}{yE[y]}]=Ex,y[xy]E[x]E[y]\operatorname{cov}[x, y] = \mathbb{E}_{x,y}[\{x - \mathbb{E}[x]\}\{y - \mathbb{E}[y]\}] = \mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y]
        • covariance는 x값과 y값이 얼마나 함께 같이 변동하는가에 대한 지표
        • x, y가 independent할 경우 covariance = 0
        • x가 증가할 때, y도 증가하는 추세일 경우 covariance > 0
        • x가 증가할 때, y가 감소하는 추세일 경우 covariance < 0
        • 변수간 상관성을 어느정도 반영함
        • 다만, 각 변수의 variance에 따라 그 크기가 정해지기 때문에, 상대적 상관성을 보고자 한다면 variance에 대한 normalization(scaling)이 필요
        • correlation

          • ρx,y=corr[x,y]=cov[x,y]var[x]var[y]\rho_{x,y} = \operatorname{corr}[x,y] = {\operatorname{cov}[x,y]\over{ \sqrt{\operatorname{var}[x]\operatorname{var}[y]}}}
      • covariance of x\mathbf{x}, y\mathbf{y}

        • cov[x,y]=Ex,y[{xE[x]}{yTE[yT]}]=Ex,y[xyT]E[x]E[yT]\operatorname{cov}[\mathbf{x}, \mathbf{y}] = \mathbb{E}_{\mathbf{x},\mathbf{y}}[\{\mathbf{x} - \mathbb{E}[\mathbf{x}]\}\{\mathbf{y}^\mathsf{T} - \mathbb{E}[\mathbf{y}^\mathsf{T}]\}] = \mathbb{E}_{\mathbf{x},\mathbf{y}}[\mathbf{x}\mathbf{y}^\mathsf{T}] - \mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^\mathsf{T}]
      • vertor x\mathbf{x}의 구성 원소들 간 공분산

        • cov[x]cov[x,x]\operatorname{cov}[\mathbf{x}] \equiv \operatorname{cov}[\mathbf{x}, \mathbf{x}] (간단하게 표현)
  • Bayesian probabilities

    • 생각보다 처음 접할 때 이해하기 어려운 내용이라 위에서 간단하게 설명하였지만, 개념 위주로 다시 설명
    • frquentist(classical) interpretation of probability

      • 확률 : 반복 가능한 임의의 사건의 빈도수
    • Bayesian probalitity

      • 확률 : 지식 또는 믿음의 정도를 나타내는 양
      • subjectivists(주관주의자) : 지식의 상태는 개인적인 믿음의 정도(degree of belief)로 측정할 수 있음
    • 둘의 가장 큰 차이는 “개인적 믿음(의견)“을 개입할 수 있을 것인가 여부와, “추가적인 정보로 인하여 확률이 변화하는지” 여부

      • 고전적인 빈도주의적 관점에서는, 확률은 객관적으로 모두에게 동일한 값으로 개인의 믿음이 반영될 여지가 없음
      • 베이지안(주관주의적) 관점에서는 확률은 개인의 믿음 그 자체를 나타내며, 추가적 정보를 통하여 그 믿음이 변화할 수 있음
      • 불확실성을 정량화하고, 새롭게 수집된 증거를 통해 불확실성을 수정하는 일련의 과정에서 베이지안 관점은 유용하게 이용됨
      • Cox(1946)은 수치값을 degree of belief를 표현하는데에 이용한다면, 그 믿음에 대한 상식을 인코딩한 공리집합이 degrees of belief를 조작하기 위한 유일해 규칙집합을 유도하는데, 이 규칙들이 확률의 sum rule과 product rule과 동일하다는 것을 증명 (말이 좀 어려우나, degree of belief에 대하여 sum rule과 product rule을 동일하게 적용할 수 있다는 뜻)

        • 곧, 확률론은 불확실성을 포함하는 상황에 대한 boolean logic의 확장으로 간주할 수 있음
    • polynomial curve fitting의 예로 설명

      • data D={t1,,tN}\mathcal{D} = \{t_1,\cdots,t_N\}, parameter w=(w1,,wM)T\mathbf{w} = (w_1,\cdots,w_M)^\mathsf{T}에 대하여
      • p(wD)=p(Dw)p(w)p(D)p(\mathbf{w}{\mid}\mathcal{D}) = {p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})\over{p(\mathcal{D})}}
      • prior

        • p(w)p(\mathbf{w})
        • 가정한 패러미터(모델)의 확률분포
      • likelihood

        • p(Dw)p(\mathcal{D}{\mid}\mathbf{w})
        • 가정한 패러미터일 때 관측된 데이터셋 D\mathcal{D}이 나타날 정도
        • w\mathbf{w}에 대한 확률 분포가 아니기 때문에 적분값이 1이 되지 않아도 됨
      • posterior

        • p(wD)p(\mathbf{w}{\mid}\mathcal{D})
        • D\mathcal{D}가 관측되었을 때, 패러미터 w\mathbf{w}의 확률
      • p(D)=p(w,D)dw=p(Dw)p(w)dwp(\mathcal{D}) = \int{p(\mathbf{w},\mathcal{D})}\,d\mathbf{w} = \int{p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})}\,d\mathbf{w}
      • p(wD)=p(Dw)p(w)p(Dw)p(w)dwp(\mathbf{w}{\mid}\mathcal{D}) = {p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})\over{\int{p(\mathcal{D}{\mid}\mathbf{w})p(\mathbf{w})}\,d\mathbf{w}}}
    • likelihood p(Dw)p(\mathcal{D}{\mid}\mathbf{w})는 frequentist / Bayesian양 관점에서 모두 중요 (양쪽 다 모델부에 해당)
    • frequentist

      • 가능한 데이터셋 D\mathcal{D}의 분포를 통하여 고정된 매개변수 w\mathbf{w}를 추정
      • MLE(maximum likelihood estimation)

        • likelihood p(Dw)p(\mathcal{D}{\mid}\mathbf{w}) 최대화
        • error function은 보통 negative log likelihood로 정의됨

          • 이전에 살펴본 바 있는 SSE또한 negative log likelihood이며, 뒤에서 이를 확인할 것
      • bootstrap

        • random sampling with replacement을 진행하여 진행하는 테스트/메트릭의 통칭
        • 여기서는 그중 한 가지 방법에 대하여 알아봄

          • X=x1,,xNX = {x_1,\cdots,x_N}의 데이터셋에서, N회의 random sampling with replacement을 진행
          • 위의 샘플링을 L회 반복
          • 결과적으로 size N의 데이터셋 L개를 확보할 수 있음
          • 각각의 데이터셋에 대하여 예측치와 실제 매개변수 값과의 차이를 비교하여 매개변수 추정값의 통계적 정확도를 계산할 수 있음
      • cross validation

        • training set과 test set을 나누는 방법을 다르게 하여 샘플링한 뒤, test set의 결과를 통하여 각 모델의 성능을 비교
    • Bayesian

      • 관측된 데이터셋 D\mathcal{D}를 통하여 불확실한 매개변수 w\mathbf{w}를 확률분포를 통하여 표현
      • MAP(maximum a posteriori)

        • posterior p(wD)p(\mathbf{w}{\mid}\mathcal{D}) 최대화
        • 개인의 믿음을 prior의 형태로 반영할 수 있음
        • 예를 들어, 동전을 던질 경우 각 면이 나타날 확률은 각 1/2일 것이라는 믿음을 prior에 반영
      • noninformative prior

        • 좋지 못한 prior을 바탕으로 추정한 모델은 성능이 떨어지기 때문에, 때로는 prior을 통하여 사전정보를 전달하지 않기도 함
    • Bayesian은 제한사항 때문에 오랫동안 널리 쓰이지 못하였음

      • marginalize over the whole of parameter space

        • 예측하거나 모델을 비교할 때 필요
      • MCMC(Markov chain Monte Carlo) 등의 표본 추출 방법이 개발되고, 컴퓨터 연산속도와 메모리 용량이 증가하면서 실용적으로 쓸 수 있게 됨

        • Monte Carlo는 대단히 유연하여 다양한 범주의 모델에 대하여 적용이 가능하나, 연산량이 많이 필요함
      • 최근에는 variational Bayes나 expectation propagation과 같은 효율적인 결정론적 근사방법들이 개발됨
  • The Gaussian distribution

    • univariate Gaussian distribution

      • N(xμ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}\mathcal{N}(x{\mid}\mu,\sigma^2) = {1\over{(2\pi\sigma^2)^{1/2}}}\exp\left\{-{1\over{2\sigma^2}}(x-\mu)^2\right\}

        • N(xμ,σ2)>0\mathcal{N}(x{\mid}\mu,\sigma^2) > 0
        • N(xμ,σ2)dx=1\int_{-\infty}^\infty\mathcal{N}(x{\mid}\mu,\sigma^2)\,dx= 1
        • E[x]=N(xμ,σ2)xdx=μ\mathbb{E}[x] = \int_{-\infty}^\infty\mathcal{N}(x{\mid}\mu,\sigma^2)x\,dx = \mu
        • E[x2]=N(xμ,σ2)x2dx=μ2+σ2\mathbb{E}[x^2] = \int_{-\infty}^\infty\mathcal{N}(x{\mid}\mu,\sigma^2)x^2\,dx = \mu^2 + \sigma^2
        • var[x]=E[x2]E[x]2=σ2\operatorname{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 = \sigma^2
        • mode = mean
        • β=1/σ2\beta = 1/\sigma^2 : precision
    • multivariate Gaussian distribution

      • N(xμ,Σ)=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}\mathcal{N}(\mathbf{x}{\mid}\boldsymbol{\mu},\boldsymbol{\Sigma}) = {1\over{(2\pi)^{D/2}}}{1\over{\lvert\boldsymbol{\Sigma}\rvert^{1/2}}}\exp\left\{-{1\over{2}}(\mathbf{x}-\boldsymbol{\mu})^\mathsf{T}\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}
      • D : dimension of variable
      • x=(x1,,xN)T\mathbf{x} = (x_1,\cdots,x_N)^\mathsf{T}
      • Σ\boldsymbol{\Sigma} : covariance
      • Σ\lvert\boldsymbol{\Sigma}\rvert : determinant of covariance
    • univariate Gaussian distribution에서 MLE 설명

      • x=(x1,,xN)T\textsf{\textbf{x}} = (x_1,\cdots,x_N)^\mathsf{T}

        • vector x=(x1,,xD)T\mathbf{x} = (x_1,\cdots,x_D)^\mathsf{T}가 아니라, 독립추출된 N개의 개별 샘플
      • 동일한 분포에서 독립적으로 추출되었으므로 IID (independent and identically distributed)
      • p(xμ,σ2)=n=1NN(xnμ,σ2)p(\textsf{\textbf{x}}{\mid}\mu,\sigma^2) = \prod_{n=1}^N\mathcal{N}(x_n{\mid}\mu,\sigma^2)

        • 가우시안 분포의 likelihood
      • 모수를 추정할 때, frequentist 관점에서는 보통 likelihood를 최대화하는 모수를 찾음

        • 이 과정을 MLE(maximum likelihood estimation)라 함
      • 곱을 합으로 변형하여, 좀 더 미분하기 편하게 하기 위해서 보통 likelihood 대신에 log likelihood를 이용함(minimizing negative log likelihood가 가장 일반적)
      • log likelihood

        • lnp(xμ,σ2)=12σ2n=1N(xnμ)2N2lnσ2N2ln(2π)\ln{p(\textsf{\textbf{x}}{\mid}\mu, \sigma^2)} = -{1\over{2\sigma^2}}\sum_{n=1}^N(x_n - \mu)^2 - {N\over{2}}\ln\sigma^2 - {N\over{2}}\ln(2\pi)
        • μ\mu에 대하여 log likelihood의 최대값을 찾아, maximum likelihood solution을 얻을 수 있음

          • log likelihood를 μ\mu에 대하여 미분한 뒤, 미분식이 0이 되는 모수를 찾는 과정을 거쳐 구함(과정 생략)
          • μML=1Nn=1Nxn\mu_{ML} = {1\over{N}}\sum_{n=1}^Nx_n (sample mean)
        • σ2\sigma^2에 대하여 log likelihood의 최대값을 찾아, maximum likelihood solution을 얻을 수 있음

          • log likelihood를 σ2\sigma^2에 대하여 미분한 뒤, 미분식이 0이 되는 모수를 찾는 과정을 거쳐 구함(과정 생략)
          • σML2=1Nn=1N(xnμML)2\sigma^2_{ML} = {1\over{N}}\sum_{n=1}^N(x_n - \mu_{ML})^2 (sample variance)
        • 두 모수에 대한 joint maximization이 목적이나, Gaussian distribution에서는 μ\mu의 솔루션이 σ2\sigma^2과 decoupled되어있기 때문에, 위처럼 별도로 구해도 됨
      • 일련의 MLE를 통하여 구한 모수에 있어, variance를 과소평가하게 되는 경향이 있음

        • bias의 예시
        • overfitting과 관계있음 (데이터에 overfitting되었기 때문에, 원 분포와 괴리 발생)
        • E[μML]=μ\mathbb{E}[\mu_{ML}] = \mu
        • E[σML2]=(N1N)σ2\mathbb{E}[\sigma^2_{ML}] = \left({N-1\over{N}}\right)\sigma^2
        • MLE를 통하여 mean은 정확하게 구할 수 있지만, variance는 (N1/N)(N-1/N)만큼 과소평가하게 됨
        • 데이터 포인트의 수가 작을 수록, sample variance는 original distribution의 variance에 비하여 작음

          • 어떠한 distribution에서 포인트 N개를 샘플링한 뒤 이 샘플들의 variance를 구할 경우, 이상적으로 샘플링되었다 하더라도 그 결과는 샘플링한 distribution의 variance에 대해 (N1/N)(N-1/N)배가 됨
        • unbiased variance

          • σ~2=NN1σML2=1N1n=1N(xnμML)2\tilde{\sigma}^2 = {N\over{N-1}}\sigma_{ML}^2 = {1\over{N-1}}\sum_{n=1}^N(x_n-\mu_{ML})^2
        • 데이터 포인트 개수 N이 커질수록 MLE variance의 bias는 감소함
        • 유도과정 : [연습문제 1.12]
  • Curve fitting re-visited

    • x=(x1,,xN)T\textsf{\textbf{x}} = (x_1,\cdots,x_N)^\mathsf{T}
    • t=(t1,,tN)T\textsf{\textbf{t}} = (t_1,\cdots,t_N)^\mathsf{T}
    • p(tx,w,β)=N(ty(x,w),β1)p(t{\mid}x,\mathbf{w},\beta) = \mathcal{N}(t{\mid}y(x,\mathbf{w}),\beta^{-1})
    • p(tx,w,β)=n=1NN(tny(xn,w),β1)p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta) = \prod_{n=1}^N\mathcal{N}(t_n{\mid}y(x_n,\mathbf{w}),\beta^{-1})
    • MLE

      • lnp(tx,w,β)=β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)\ln{p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta)} = -{\beta\over{2}}\sum_{n=1}^N\{y(x_n, \mathbf{w})-t_n\}^2+{N\over{2}}\ln\beta-{N\over{2}}\ln(2\pi)
      • negative log likelihood에서, w\mathbf{w}와 독립인 상수항을 제거한 뒤, 적절하게 스케일링하면 SSE항이 됨

        • lnp(tx,w,β)=β2n=1N{y(xn,w)tn}2N2lnβ+N2ln(2π)-\ln{p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta)} = {\beta\over{2}}\sum_{n=1}^N\{y(x_n, \mathbf{w})-t_n\}^2-{N\over{2}}\ln\beta+{N\over{2}}\ln(2\pi)
        • 12n=1N{y(xn,w)tn}2{1\over{2}}\sum_{n=1}^N\{y(x_n, \mathbf{w})-t_n\}^2
      • w\mathbf{w}에 대하여 MLE를 하는 것과, SSE로 curve fitting하는 것은, 동치
      • negative log likelihood에서, 마찬가지로 precision β\beta에 대하여 MLE를 진행

        • 1βML=1Nn=1N{y(xn,wML)tn}2{1\over{\beta_{ML}}} = {1\over{N}}\sum_{n=1}^N\{y(x_n, \mathbf{w}_{ML})-t_n\}^2
        • wML\mathbf{w}_{ML}을 먼저 구한 뒤, 이를 사용하여 βML\beta_{ML}을 구할 수 있음
      • 새로운 변수 x에 대한 predictive distribution

        • p(tx,wML,βML)=N(ty(x,wML),βML1)p(t{\mid}x,\mathbf{w}_{ML},\beta_{ML}) = \mathcal{N}(t{\mid}y(x,\mathbf{w}_{ML}),\beta_{ML}^{-1})
    • MAP

      • w\mathbf{w}에 대한 prior 가정

        • μ=0,Σ=α1I\boldsymbol{\mu}=\mathbf{0}, \boldsymbol{\Sigma}=\alpha^{-1}\mathbf{I} (wnw_n의 mean은 모두 0, variance는 모두 α1\alpha^{-1}, covariance는 모두 0)인 정규분포로 가정
        • p(wα)=N(w0,α1,I)=(α2π)(M+1)/2exp{α2wTw}p(\mathbf{w}{\mid}\alpha) = \mathcal{N}(\mathbf{w}{\mid}\mathbf{0},\alpha^{-1},\mathbf{I}) = \left({\alpha\over{2\pi}}\right)^{(M+1)/2}\exp\left\{-{\alpha\over{2}}\mathbf{w}^\mathsf{T}\mathbf{w}\right\}

          • 여기서의 α\alpha와 같이, 모수의 분포를 제어하는 변수를 hyperparameter이라 함
        • p(wx,t,α,β)p(tx,w,β)p(wα)p(\mathbf{w}{\mid}\textsf{\textbf{x}},\textsf{\textbf{t}},\alpha,\beta)\propto p(\textsf{\textbf{t}}{\mid}\textsf{\textbf{x}},\mathbf{w},\beta)p(\mathbf{w}{\mid}\alpha) (Bayes’ Theorem)
        • maximize posterior n=1NN(tny(xn,w),β1)(α2π)(M+1)/2exp{α2wTw}\prod_{n=1}^N\mathcal{N}(t_n{\mid}y(x_n,\mathbf{w}),\beta^{-1})\cdot\left({\alpha\over{2\pi}}\right)^{(M+1)/2}\exp\left\{-{\alpha\over{2}}\mathbf{w}^\mathsf{T}\mathbf{w}\right\}
        • minimize negative log posterior β2n=1N{y(xn,w)tn}2+α2wTw{\beta\over{2}}\sum_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2+{\alpha\over{2}}\mathbf{w}^\mathsf{T}\mathbf{w}

          • ridge regression식임을 확인할 수 있음
  • Bayesian curve fitting

    • 개요

      • 위의 MAP에서 prior p(wα)p(\mathbf{w}{\mid}\alpha)를 포함하였지만, w\mathbf{w}를 점으로 근사하고 있기에, 아직 완전한 베이지안 방식은 아님
      • 완전한 베이지안 접근법은 sum rule / product rule을 일관되게 적용해야 하는데, 이는 모든 w\mathbf{w}값에 대한 적분이 필요함
      • 이러한 marginalization이 pattern recognition에서의 Bayesian method의 핵심임
    • predictive distribution

      • p(tx,x,t)=p(tx,w)p(wx,t)dwp(t{\mid}x,\textsf{\textbf{x}},\textsf{\textbf{t}}) = {\int}p(t{\mid}x,\mathbf{w})p(\mathbf{w}{\mid}\textsf{\textbf{x}},\textsf{\textbf{t}})\,d\mathbf{w}

        • p(tx,x,t)p(t{\mid}x,\textsf{\textbf{x}},\textsf{\textbf{t}}) : x\textsf{\textbf{x}},t\textsf{\textbf{t}}의 데이터셋으로 추정한 모델을 통하여, xx피처에 대하여 예측한 타겟값 tt
        • p(tx,w)p(t{\mid}x,\mathbf{w}) : 패러미터 w\mathbf{w}의 모델을 통하여 xx피처에 대하여 예측한 타겟값 tt
        • p(wx,t)p(\mathbf{w}{\mid}\textsf{\textbf{x}},\textsf{\textbf{t}}) : x\textsf{\textbf{x}},t\textsf{\textbf{t}}의 데이터셋으로 추정한 모델 패러미터 w\mathbf{w} (parameter posterior)
      • p(tx,x,t)=N(tm(x),s2(x))p(t{\mid}x,\textsf{\textbf{x}},\textsf{\textbf{t}}) = \mathcal{N}(t{\mid}m(x), s^2(x))

        • predictive distribution의 평균과 분산은 x에 종속
        • m(x)=βϕ(x)TSn=1Nϕ(xn)tnm(x) = \beta\boldsymbol{\phi}(x)^\mathsf{T}\mathbf{S}\sum_{n=1}^N\phi(x_n)t_n
        • s2(x)=β1+ϕ(x)TSϕ(x)s^2(x) = \beta^{-1}+\boldsymbol{\phi}(x)^\mathsf{T}\mathbf{S}\boldsymbol{\phi}(x)

          • β1\beta^{-1} : 타겟 변수의 노이즈에서 기인하는 불확실성
          • ϕ(x)TSϕ(x)\boldsymbol{\phi}(x)^\mathsf{T}\mathbf{S}\boldsymbol{\phi}(x) : w\mathbf{w}의 불확실성에서 기인하는 불확실성
        • S1=αI+βn=1Nϕ(xn)ϕ(xn)T\mathbf{S}^{-1} = \alpha\mathbf{I}+\beta\sum_{n=1}^N\boldsymbol{\phi}(x_n)\boldsymbol{\phi}(x_n)^\mathsf{T}
        • I\mathbf{I} : unit matrix
        • ϕ(x)\boldsymbol{\phi}(x) : ϕi(x)=xi\phi_i(x) = x^i for i=0,,Mi=0,\cdots,M
Machine LearningMLBookBishop PRML