← All Articles

Bishop PRML - Ch1. Introduction (5)

Posted on

Decision Theory

  • 적절한 확률들이 주어진 상태에서 어떻게 하면 최적의 결정을 내릴 수 있는지
  • Classification

    • p(Ckx)=p(xCk)p(Ck)p(x)p(C_k{\mid}\mathbf{x}) = {p(\mathbf{x}{\mid}C_k)p(C_k)\over{p(\mathbf{x})}}
    • 직관적으로 maximize posterior를 통하여 우리가 원하는 해를 얻을 수 있을 것
    • 다만, 확률을 토대로 결정하는 것은 다른 문제며, 최종적으로 어떻게 분류할 지는 무엇을 목적으로 할지에 따라 달라짐
  • Minimizing the misclassification rate

    • x\mathbf{x}를 적절한 클래스에 분류하게 위하여, input space를 decision regions Rk로나눔\mathcal{R}_k로 나눔

      • Rk\mathcal{R}_k에 속해있는 포인트는 Ck\mathcal{C}_k로 할당됨
      • decision regions의 바운더리를 decision boundaries 혹은 decision surfaces라 함
    • 예로, k=0,1인 경우에 대한 이진 분류 문제를 관찰

      • p(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dxp(\text{mistake}) = p(\mathbf{x}\in\mathcal{R}_1,\mathcal{C}_2)+p(\mathbf{x}\in\mathcal{R}_2,\mathcal{C}_1) = \int_{\mathcal{R}_1}p(\mathbf{x},\mathcal{C}_2)\,d\mathbf{x}+\int_{\mathcal{R}_2}p(\mathbf{x},\mathcal{C}_1)\,d\mathbf{x}
      • minimize p(mistake)p(\text{mistake})

        • p(x,C1)>p(x,C2)p(\mathbf{x},\mathcal{C}_1) > p(\mathbf{x},\mathcal{C}_2)인 경우 C1\mathcal{C}_1에 분류
        • p(x,C1)<p(x,C2)p(\mathbf{x},\mathcal{C}_1) < p(\mathbf{x},\mathcal{C}_2)인 경우 C2\mathcal{C}_2에 분류
        • 결국 p(Ckx)p(C_k{\mid}\mathbf{x})를 최대로 하는 클래스에 분류하도록 Rk\mathcal{R}_k를 선택하여 달성
    • K개의 클래스에 대한 분류 문제일 경우, 올바르게 분류된 경우의 확률을 극대화하는 문제로 보는 것이 더 쉬움

      • correct는 mistake의 여집합이기 때문
      • p(correct)=k=1Kp(xRk,Ck)=k=1KRkp(x,Ck)dxp(\text{correct}) = {\sum_{k=1}^K}p(\mathbf{x}\in\mathcal{R}_k,\mathcal{C}_k) = {\sum_{k=1}^K}\int_{\mathcal{R}_k}p(\mathbf{x},\mathcal{C}_k)\,d\mathbf{x}
      • 결국 p(Ckx)p(C_k{\mid}\mathbf{x})를 최대로 하는 클래스에 분류하도록 Rk\mathcal{R}_k를 선택하여 달성
  • Minimizing the expected loss

    • 일반적으로, 풀고자 하는 문제는 좀 더 복잡함 (Precision을 중요시한다거나, Recall을 중요시하는 등)
    • 판정에 가중치를 주어, 학습의 목적을 정할 수 있음
    • loss matrix LL

      • LkjL_{kj}CkC_k클래스를 CjC_j로 분류하였을 때의 loss
    • E[L]=kjRjLkjp(x,Ck)dx\mathbb{E}[L] = {\sum_k}{\sum_j}{\int_{\mathcal{R}_j}}L_{kj}p(\mathbf{x},\mathcal{C}_k)\,d\mathbf{x}
    • 결국 expected loss를 최소화하는 것은 kLkjp(Ckx){\sum_k}L_{kj}p(\mathcal{C}_k{\mid}\mathbf{x})를 최소화하는 j로 분류하는 것
    • 이는 posterior p(Ckx)p(\mathcal{C}_k{\mid}\mathbf{x})를 알면 쉽게 시행 가능
  • The reject option

    • threshold θ\theta를 두어, posterior p(Ckx)p(\mathcal{C}_k{\mid}\mathbf{x})중 가장 큰 값이 θ\theta 이하일 경우, 판별을 거절
    • loss matrix가 주어진 경우, loss에 reject가 발생하였을 때의 loss λ\lambda를 설계하여, 포함해야 함
  • Inference and decision

    • inference stage(posterior modeling)와 decision stage(optimal classification)를 합쳐, input값을 받아 decision을 만들어내는 함수를 이용하는 방식도 있으며, 이 때 이 함수를 discriminant function이라고 함
    • decision problem을 푸는 세 가지 방법

      • generative model

        • joint distribution(likelihood * prior) modeling
        • 보통, 학습시 prior로서 학습 데이터의 클래스 분포를 이용함
        • 만약 사전분포가 달라질 경우, 이에 대한 반영이 가능함
        • joint distribution을 알기에 이에 대한 총합인 marginal probability도 알 수 있고, 따라서 인공 데이터셋을 만들어낼 수도 있음

          • p(x)=kp(xCk)p(Ck)p(\mathbf{x}) = {\sum_k}p(\mathbf{x}{\mid}\mathcal{C}_k)p(\mathcal{C}_k)
          • 특히, 발생 확률이 낮은 데이터 포인트를 미리 발견할 수 있으며, 이러한 검출 방식을 outlier detection 혹은 novelty detection이라 함
      • discriminative model

        • posterior modeling
        • generative model에 비하여 간단하고 효율적
      • discriminant function

        • posterior을 알지 못하여 얻는 불이익들이 있음
    • posterior을 알 때

      • loss matrix가 변할 때, 새로 학습하지 않고 loss matrix만 교체해주면 됨
      • maximum posterior값을 통하여 reject option을 적용 가능
      • prior을 자유롭게 설정하여 학습할 수 있으며, 적용시 prior가 달라져도 반영 가능
      • 분리된 모델들을 결합 가능

        • conditional independence 가정을 통하여 naive Bayes model 적용

          • p(xA,xBCk)=p(xACk)p(xBCk)p(\mathbf{x}_A,\mathbf{x}_B{\mid}\mathcal{C}_k) = p(\mathbf{x}_A{\mid}\mathcal{C}_k)p(\mathbf{x}_B{\mid}\mathcal{C}_k)
          • 분포가 Ck\mathcal{C}_k에 포함되었다는 조건 하에 독립, 이를 가정하여 posterior 산출 가능
          • p(CkxA,xB)p(xA,xBCk)p(Ck)p(xACk)p(xBCk)p(Ck)p(CkxA)p(CkxB)p(Ck)p(\mathcal{C}_k{\mid}\mathbf{x}_A,\mathbf{x}_B) \propto p(\mathbf{x}_A,\mathbf{x}_B{\mid}\mathcal{C}_k)p(\mathcal{C}_k) \propto p(\mathbf{x}_A{\mid}\mathcal{C}_k)p(\mathbf{x}_B{\mid}\mathcal{C}_k)p(\mathcal{C}_k) \propto {p(\mathcal{C}_k{\mid}\mathbf{x}_A)p(\mathcal{C}_k{\mid}\mathbf{x}_B)\over{p(\mathcal{C}_k)}}
          • prior p(Ck)p(\mathcal{C}_k)은 학습 데이터의 클래스 분포로 근사
          • posterior을 normalize하는 과정은 필요함
        • conditional independence 가정 없이도 데이터들을 결합시키는 방법을 뒤에서 살펴봄
  • Loss functions for regression

    • expected loss

      • E[L]=L(t,y(x))p(x,t)dxdt\mathbb{E}[L] = {\int}{\int}L(t,y(\mathbf{x}))p(\mathbf{x},t)\,d\mathbf{x}\,dt
    • when applied squared loss

      • E[L]={y(x)t}2p(x,t)dxdt\mathbb{E}[L] = {\int}{\int}\{y(\mathbf{x})-t\}^2p(\mathbf{x},t)\,d\mathbf{x}\,dt
    • to minimize E[L]\mathbb{E}[L], find extrema

      • δE[L]δy(x)=2{y(x)t}p(x,t)dt=0{\delta\mathbb{E}[L]\over{{\delta}y(\mathbf{x})}} = 2{\int}\{y(\mathbf{x})-t\}p(\mathbf{x},t)\,dt=0
      • y(x)=tp(x,t)dtp(x)=tp(tx)dt=Et[tx]y(\mathbf{x}) = {{\int}tp(\mathbf{x},t)\,dt\over{p(\mathbf{x})}} = {\int}tp(t{\mid}\mathbf{x})dt = \mathbb{E}_t[t{\mid}\mathbf{x}]
      • multiple target vector t\mathbf{t} 가정시 optimal solution

        • y(x)=Et[tx]\mathbf{y}(\mathbf{x}) = \mathbb{E}_t[\mathbf{t}{\mid}\mathbf{x}] (conditional expectation)
    • 분해를 통한 또 다른 유도

      • {y(xt)}2={y(x)E[tx]+E[tx]t}2={y(x)E[tx]}2+2{y(x)E[tx]}{E[tx]t}+{E[tx]t}2\{y(\mathbf{x}-t)\}^2 = \{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}]+\mathbb{E}[t{\mid}\mathbf{x}]-t\}^2 \\= \{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}]\}^2+2\{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}]\}\{\mathbb{E}[t{\mid}\mathbf{x}]-t\}+\{\mathbb{E}[t{\mid}\mathbf{x}]-t\}^2
      • E[L]={y(x)E[tx}2p(x)dx+var[tx]p(x)dx\mathbb{E}[L] = {\int}\{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}\}^2p(\mathbf{x})\,d\mathbf{x}+{\int}\operatorname{var}[t{\mid}\mathbf{x}]p(\mathbf{x})\,d\mathbf{x}
      • y(x)=Et[tx]y(\mathbf{x}) = \mathbb{E}_t[t{\mid}\mathbf{x}] 일 때 식 최소화
      • var[tx]p(x)dx{\int}\operatorname{var}[t{\mid}\mathbf{x}]p(\mathbf{x})\,d\mathbf{x}는 노이즈에 해당
    • squared loss가 좋지 못한 결과를 야기하는 경우

      • posterior가 multimodal인 경우

        • 두 mode중 좀 더 좋은 mode가 아니라, 두 mode 사이의 어딘가로 학습할 확률이 큼
      • Minkowski loss

        • E[L]=y(x)tqp(x,t)dxdt\mathbb{E}[L] = {\int}{\int}\lvert{y(\mathbf{x})-t}\rvert^qp(\mathbf{x},t)\,d\mathbf{x}\,dt
        • squared loss의 일반화
        • E[L]\mathbb{E}[L]의 최소값

          • q=2q = 2 : conditional mean
          • q=1q = 1 : conditional median
          • q0q \to 0 : conditional mode
Machine LearningMLBookBishop PRML