← All Articles

Bishop PRML - Ch2. Probability Distributions (1)

Posted on

Binary Variables

  • Bernoulli distribution

    • Bern(xμ)=μx(1μ)1x\operatorname{Bern}(x{\mid}\mu) = \mu^x(1-\mu)^{1-x}

      • p(x=1μ)=1p(x=0μ)=μp(x=1{\mid}\mu)=1-p(x=0{\mid}\mu)=\mu 일 때의 분포
    • mean

      • E[x]=μ\mathbb{E}[x] = \mu
    • variance

      • var[x]=μ(1μ)\operatorname{var}[x] = \mu(1-\mu)
    • likelihood

      • p(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xnp(\mathcal{D}{\mid}\mu) = \prod_{n=1}^Np(x_n{\mid}\mu) = \prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}
    • log likelihood

      • lnp(Dμ)=n=1Nlnp(xnμ)=n=1N{xnlnμ+(1xn)ln(1μ)}\ln{p(\mathcal{D}{\mid}\mu)} = \sum_{n=1}^N\ln{p(x_n{\mid}\mu)} = \sum_{n=1}^N\{x_n\ln\mu+(1-x_n)\ln(1-\mu)\}
    • MLE

      • μML=1Nn=1Mxn\mu_{\text{ML}} = {1\over{N}}\sum_{n=1}^Mx_n
      • log likelihood을 미분하여, extrema를 구함으로서 구할 수 있음
      • sample mean과 동일함에 유의
  • binomial distribution

    • Bin(mN,μ)=(Nm)μm(1μ)Nm\operatorname{Bin}(m{\mid}N,\mu) = {N\choose{m}}\mu^m(1-\mu)^{N-m}

      • N회의 Bernoulli 독십시행결과 m번의 성공을 할 확률
      • (Nm)=N!(Nm)!m!{N\choose{m}} = {N!\over{(N-m)!m!}}
    • mean

      • E[m]=m=0NmBin(mN,μ)=Nμ\mathbb{E}[m] = \sum_{m=0}^Nm\operatorname{Bin}(m{\mid}N,\mu) = N\mu
    • variance

      • var[m]=m=0N(mE[m])2Bin(mN,μ)=Nμ(1μ)\operatorname{var}[m] = \sum_{m=0}^N(m-\mathbb{E}[m])^2\operatorname{Bin}(m{\mid}N,\mu) = N\mu(1-\mu)
  • beta function / gamma function

    • Euler integral

      • Euler integral of first kind (beta function)

        • B(x,y)=01tx1(1t)y1dt=Γ(x)Γ(y)Γ(x+y)\operatorname{B}(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}dt = {\Gamma(x)\Gamma(y)\over\Gamma(x+y)}
      • Euler integral of second kind (gamma function)

        • Γ(x)=0tx1etdt\Gamma(x) = \int_0^\infty{t^{x-1}\over{e^t}}dt
    • gamma function

      • factorial의 실수에 대한 일반화
      • 증명

        • Γ(x+1)=0txetdt=[txet]t=0t=(0xtx1etdt)=limt(txet)0+(0xtx1etdt)=x0tx1etdt=xΓ(x)\Gamma(x+1) = \int_0^\infty{t^x\over{e^t}}dt = \left[-t^xe^{-t}\right]_{t=0}^{t=\infty} - \left({\int_0^\infty}-xt^{x-1}e^{-t}dt\right)\\ = \underset{t\rightarrow\infty}{\lim}(-t^xe^{-t}) - 0 + \left({\int_0^\infty}xt^{x-1}e^{-t}dt\right)\\ = x{\int_0^\infty}t^{x-1}e^{-t}dt = x\Gamma(x)(L’Hospital’s Rule)
        • Γ(x+1)=xΓ(x)\Gamma(x+1) = x\Gamma(x)
        • Γ(1)=1,0!=1\Gamma(1) = 1,{\quad}0! = 1
        • Γ(n+1)=n!,Γ(n)=(n1)!\therefore\Gamma(n+1) = n!,{\quad}\Gamma(n) = (n-1)!
    • beta function

      • B(x,y)=01tx1(1t)y1dt=Γ(x)Γ(y)Γ(x+y)B(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}dt = {\Gamma(x)\Gamma(y)\over\Gamma(x+y)}
      • B(n,m)=(n1)!(m1)!(n+m2)!B(n,m) = {(n-1)!(m-1)!\over(n+m-2)!}
  • beta distribution

    • Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1\operatorname{Beta}(\mu{\mid}a,b) = {\Gamma(a+b)\over{\Gamma(a)\Gamma(b)}}\mu^{a-1}(1-\mu)^{b-1}

      • Γ(x)=0ux1eudu\Gamma(x) = \int_0^\infty{u^{x-1}e^{-u}\,du}
      • Binomial distribution의 conjugate prior
      • f(x;α,β)=xα1(1x)β101uα1(1u)β1du=xα1(1x)β1B(α,β)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1f(x;\alpha,\beta) = {x^{\alpha-1}(1-x)^{\beta-1}\over\int_0^1{u^{\alpha-1}(1-u)^{\beta-1}du}} = {x^{\alpha-1}(1-x)^{\beta-1}\over{B(\alpha,\beta)}} = {\Gamma(\alpha+\beta)\over\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}
      • 잘 보면 binomial distribution식의 실수판임, 이를 염두에 두고 보면 좀 더 연관성이 보일 것

        • 이를 고려할 때, 두 모수를 각각 시행횟수로 볼 수 있음
        • 본문에서 a와 b를 유효 관찰수로 해석할 수 있다는 소리는 바로 이런 의미
    • mean

      • E[μ]=aa+b\mathbb{E}[\mu] = {a\over{a+b}}
    • variance

      • var[μ]=ab(a+b)2(a+b+1)\operatorname{var}[\mu] = {ab\over{(a+b)^2(a+b+1)}}
  • posterior of binomial likelihood & beta prior

    • p(μm,l,a,b)μm+a1(1μ)l+b1p(\mu{\mid}m,l,a,b)\propto{\mu^{m+a-1}(1-\mu)^{l+b-1}}
    • p(μm,l,a,b)=Γ(m+a+l+b)Γ(m+a)Γ(l+b)μm+a1(1μ)l+b1p(\mu{\mid}m,l,a,b)={\Gamma{(m+a+l+b)}\over{\Gamma(m+a)\Gamma(l+b)}}\mu^{m+a-1}(1-\mu)^{l+b-1}
    • 이를 최대화하는 방식이 바로 MAP
    • posterior값을 다음 MAP에서의 prior로 이용하는 방식을 통하여 커버 샘플수를 점점 키워가며 학습하는 순차적 접근법을 쓸 수 있음 (small batch로 나누어 학습할 수 있음)
  • prediction with likelihood & prior

    • p(x=1D)=01p(x=1μ)p(μD)du=01μp(μD)du=E[μD]p(x=1{\mid}\mathcal{D}) = \int_0^1p(x=1{\mid}\mu)p(\mu{\mid}\mathcal{D})\,du = \int_0^1{\mu}p(\mu{\mid}\mathcal{D})\,du = \mathbb{E}[\mu{\mid}\mathcal{D}]
    • p(x=1D)=m+am+a+l+bp(x=1{\mid}\mathcal{D}) = {m+a\over{m+a+l+b}}
    • m,lm,l\to\infty일 경우, p(x=1D)=mm+lp(x=1{\mid}\mathcal{D}) = {m\over{m+l}}이 되어, MLE의 결과와 동일해짐
    • beta distribution의로 표현된 prior은 관측값의 수가 증가할 수록(a, b의 값이 클 수록) Beta(μa,b)\operatorname{Beta}(\mu{\mid}a,b)의 그래프가 뾰족해짐

      • 데이터가 많을 수록 평균적으로 posterior의 불확실성 감소 (posterior가 나타내는 분포 자체는 stochastic하나, 분포의 모수가 deterministic해짐)
      • Eθ[θ]=ED[Eθ[θD]]\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \mathbb{E}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]

        • Eθ[θ]=p(θ)θdθ\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \int{p(\boldsymbol{\theta})\boldsymbol{\theta}\,d\boldsymbol{\theta}}
        • ED[Eθ[θD]]={θp(θD)dθ}p(D)dD\mathbb{E}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]] = \int\left\{\int{\boldsymbol{\theta}p(\boldsymbol{\theta}{\mid}\mathcal{D})\,d\boldsymbol{\theta}}\right\}p(\mathcal{D})\,d\mathcal{D}
        • posterior평균의 데이터 분포에 대한 기대값은 prior평균과 동일
      • varθ[θ]=ED[varθ[θD]]+varD[Eθ[θD]]\operatorname{var}_\boldsymbol{\theta}[\boldsymbol{\theta}] = \mathbb{E}_\mathcal{D}[\operatorname{var}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]+\operatorname{var}_\mathcal{D}[\mathbb{E}_\boldsymbol{\theta}[\boldsymbol{\theta}{\mid}\mathcal{D}]]

        • posterior분산의 데이터 분포에 대한 기대값은 prior분산보다 작음
        • 데이터 분포에 대한 기대값임에 유의, 데이터 분포 내의 subset에 대해서는 다를 수 있음
Machine LearningMLBookBishop PRML