Bishop PRML - Ch1. Introduction (5)

Posted on September 06, 2020

Decision Theory

적절한 확률들이 주어진 상태에서 어떻게 하면 최적의 결정을 내릴 수 있는지
Classification
- $p(C_k{\mid}\mathbf{x}) = {p(\mathbf{x}{\mid}C_k)p(C_k)\over{p(\mathbf{x})}}$
- 직관적으로 maximize posterior를 통하여 우리가 원하는 해를 얻을 수 있을 것
- 다만, 확률을 토대로 결정하는 것은 다른 문제며, 최종적으로 어떻게 분류할 지는 무엇을 목적으로 할지에 따라 달라짐
Minimizing the misclassification rate
- $\mathbf{x}$ 를 적절한 클래스에 분류하게 위하여, input space를 decision regions $\mathcal{R}_k로 나눔$
  - $\mathcal{R}_k$ 에 속해있는 포인트는 $\mathcal{C}_k$ 로 할당됨
  - decision regions의 바운더리를 decision boundaries 혹은 decision surfaces라 함
- 예로, k=0,1인 경우에 대한 이진 분류 문제를 관찰
  - $p(\text{mistake}) = p(\mathbf{x}\in\mathcal{R}_1,\mathcal{C}_2)+p(\mathbf{x}\in\mathcal{R}_2,\mathcal{C}_1) = \int_{\mathcal{R}_1}p(\mathbf{x},\mathcal{C}_2)\,d\mathbf{x}+\int_{\mathcal{R}_2}p(\mathbf{x},\mathcal{C}_1)\,d\mathbf{x}$
  - minimize $p(\text{mistake})$
    - $p(\mathbf{x},\mathcal{C}_1) > p(\mathbf{x},\mathcal{C}_2)$ 인 경우 $\mathcal{C}_1$ 에 분류
    - $p(\mathbf{x},\mathcal{C}_1) < p(\mathbf{x},\mathcal{C}_2)$ 인 경우 $\mathcal{C}_2$ 에 분류
    - 결국 $p(C_k{\mid}\mathbf{x})$ 를 최대로 하는 클래스에 분류하도록 $\mathcal{R}_k$ 를 선택하여 달성
- K개의 클래스에 대한 분류 문제일 경우, 올바르게 분류된 경우의 확률을 극대화하는 문제로 보는 것이 더 쉬움
  - correct는 mistake의 여집합이기 때문
  - $p(\text{correct}) = {\sum_{k=1}^K}p(\mathbf{x}\in\mathcal{R}_k,\mathcal{C}_k) = {\sum_{k=1}^K}\int_{\mathcal{R}_k}p(\mathbf{x},\mathcal{C}_k)\,d\mathbf{x}$
  - 결국 $p(C_k{\mid}\mathbf{x})$ 를 최대로 하는 클래스에 분류하도록 $\mathcal{R}_k$ 를 선택하여 달성
Minimizing the expected loss
- 일반적으로, 풀고자 하는 문제는 좀 더 복잡함 (Precision을 중요시한다거나, Recall을 중요시하는 등)
- 판정에 가중치를 주어, 학습의 목적을 정할 수 있음
- loss matrix $L$
  - $L_{kj}$ 는 $C_k$ 클래스를 $C_j$ 로 분류하였을 때의 loss
- $\mathbb{E}[L] = {\sum_k}{\sum_j}{\int_{\mathcal{R}_j}}L_{kj}p(\mathbf{x},\mathcal{C}_k)\,d\mathbf{x}$
- 결국 expected loss를 최소화하는 것은 ${\sum_k}L_{kj}p(\mathcal{C}_k{\mid}\mathbf{x})$ 를 최소화하는 j로 분류하는 것
- 이는 posterior $p(\mathcal{C}_k{\mid}\mathbf{x})$ 를 알면 쉽게 시행 가능
The reject option
- threshold $\theta$ 를 두어, posterior $p(\mathcal{C}_k{\mid}\mathbf{x})$ 중 가장 큰 값이 $\theta$ 이하일 경우, 판별을 거절
- loss matrix가 주어진 경우, loss에 reject가 발생하였을 때의 loss $\lambda$ 를 설계하여, 포함해야 함
Inference and decision
- inference stage(posterior modeling)와 decision stage(optimal classification)를 합쳐, input값을 받아 decision을 만들어내는 함수를 이용하는 방식도 있으며, 이 때 이 함수를 discriminant function이라고 함
- decision problem을 푸는 세 가지 방법
  - generative model
    - joint distribution(likelihood * prior) modeling
    - 보통, 학습시 prior로서 학습 데이터의 클래스 분포를 이용함
    - 만약 사전분포가 달라질 경우, 이에 대한 반영이 가능함
    - joint distribution을 알기에 이에 대한 총합인 marginal probability도 알 수 있고, 따라서 인공 데이터셋을 만들어낼 수도 있음
      - $p(\mathbf{x}) = {\sum_k}p(\mathbf{x}{\mid}\mathcal{C}_k)p(\mathcal{C}_k)$
      - 특히, 발생 확률이 낮은 데이터 포인트를 미리 발견할 수 있으며, 이러한 검출 방식을 outlier detection 혹은 novelty detection이라 함
  - discriminative model
    - posterior modeling
    - generative model에 비하여 간단하고 효율적
  - discriminant function
    - posterior을 알지 못하여 얻는 불이익들이 있음
- posterior을 알 때
  - loss matrix가 변할 때, 새로 학습하지 않고 loss matrix만 교체해주면 됨
  - maximum posterior값을 통하여 reject option을 적용 가능
  - prior을 자유롭게 설정하여 학습할 수 있으며, 적용시 prior가 달라져도 반영 가능
  - 분리된 모델들을 결합 가능
    - conditional independence 가정을 통하여 naive Bayes model 적용
      - $p(\mathbf{x}_A,\mathbf{x}_B{\mid}\mathcal{C}_k) = p(\mathbf{x}_A{\mid}\mathcal{C}_k)p(\mathbf{x}_B{\mid}\mathcal{C}_k)$
      - 분포가 $\mathcal{C}_k$ 에 포함되었다는 조건 하에 독립, 이를 가정하여 posterior 산출 가능
      - $p(\mathcal{C}_k{\mid}\mathbf{x}_A,\mathbf{x}_B) \propto p(\mathbf{x}_A,\mathbf{x}_B{\mid}\mathcal{C}_k)p(\mathcal{C}_k) \propto p(\mathbf{x}_A{\mid}\mathcal{C}_k)p(\mathbf{x}_B{\mid}\mathcal{C}_k)p(\mathcal{C}_k) \propto {p(\mathcal{C}_k{\mid}\mathbf{x}_A)p(\mathcal{C}_k{\mid}\mathbf{x}_B)\over{p(\mathcal{C}_k)}}$
      - prior $p(\mathcal{C}_k)$ 은 학습 데이터의 클래스 분포로 근사
      - posterior을 normalize하는 과정은 필요함
    - conditional independence 가정 없이도 데이터들을 결합시키는 방법을 뒤에서 살펴봄
Loss functions for regression
- expected loss
  - $\mathbb{E}[L] = {\int}{\int}L(t,y(\mathbf{x}))p(\mathbf{x},t)\,d\mathbf{x}\,dt$
- when applied squared loss
  - $\mathbb{E}[L] = {\int}{\int}\{y(\mathbf{x})-t\}^2p(\mathbf{x},t)\,d\mathbf{x}\,dt$
- to minimize $\mathbb{E}[L]$ , find extrema
  - ${\delta\mathbb{E}[L]\over{{\delta}y(\mathbf{x})}} = 2{\int}\{y(\mathbf{x})-t\}p(\mathbf{x},t)\,dt=0$
  - $y(\mathbf{x}) = {{\int}tp(\mathbf{x},t)\,dt\over{p(\mathbf{x})}} = {\int}tp(t{\mid}\mathbf{x})dt = \mathbb{E}_t[t{\mid}\mathbf{x}]$
  - multiple target vector $\mathbf{t}$ 가정시 optimal solution
    - $\mathbf{y}(\mathbf{x}) = \mathbb{E}_t[\mathbf{t}{\mid}\mathbf{x}]$ (conditional expectation)
- 분해를 통한 또 다른 유도
  - $\{y(\mathbf{x}-t)\}^2 = \{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}]+\mathbb{E}[t{\mid}\mathbf{x}]-t\}^2 \\= \{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}]\}^2+2\{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}]\}\{\mathbb{E}[t{\mid}\mathbf{x}]-t\}+\{\mathbb{E}[t{\mid}\mathbf{x}]-t\}^2$
  - $\mathbb{E}[L] = {\int}\{y(\mathbf{x})-\mathbb{E}[t{\mid}\mathbf{x}\}^2p(\mathbf{x})\,d\mathbf{x}+{\int}\operatorname{var}[t{\mid}\mathbf{x}]p(\mathbf{x})\,d\mathbf{x}$
  - $y(\mathbf{x}) = \mathbb{E}_t[t{\mid}\mathbf{x}]$ 일 때 식 최소화
  - ${\int}\operatorname{var}[t{\mid}\mathbf{x}]p(\mathbf{x})\,d\mathbf{x}$ 는 노이즈에 해당
- squared loss가 좋지 못한 결과를 야기하는 경우
  - posterior가 multimodal인 경우
    - 두 mode중 좀 더 좋은 mode가 아니라, 두 mode 사이의 어딘가로 학습할 확률이 큼
  - Minkowski loss
    - $\mathbb{E}[L] = {\int}{\int}\lvert{y(\mathbf{x})-t}\rvert^qp(\mathbf{x},t)\,d\mathbf{x}\,dt$
    - squared loss의 일반화
    - $\mathbb{E}[L]$ 의 최소값
      - $q = 2$ : conditional mean
      - $q = 1$ : conditional median
      - $q \to 0$ : conditional mode

Machine Learning

ML Book Bishop PRML