Bishop PRML - Ch1. Introduction (5)
Posted on
Decision Theory
- 적절한 확률들이 주어진 상태에서 어떻게 하면 최적의 결정을 내릴 수 있는지
-
Classification
- 직관적으로 maximize posterior를 통하여 우리가 원하는 해를 얻을 수 있을 것
- 다만, 확률을 토대로 결정하는 것은 다른 문제며, 최종적으로 어떻게 분류할 지는 무엇을 목적으로 할지에 따라 달라짐
-
Minimizing the misclassification rate
-
를 적절한 클래스에 분류하게 위하여, input space를 decision regions
- 에 속해있는 포인트는 로 할당됨
- decision regions의 바운더리를 decision boundaries 혹은 decision surfaces라 함
-
예로, k=0,1인 경우에 대한 이진 분류 문제를 관찰
-
minimize
- 인 경우 에 분류
- 인 경우 에 분류
- 결국 를 최대로 하는 클래스에 분류하도록 를 선택하여 달성
-
K개의 클래스에 대한 분류 문제일 경우, 올바르게 분류된 경우의 확률을 극대화하는 문제로 보는 것이 더 쉬움
- correct는 mistake의 여집합이기 때문
- 결국 를 최대로 하는 클래스에 분류하도록 를 선택하여 달성
-
-
Minimizing the expected loss
- 일반적으로, 풀고자 하는 문제는 좀 더 복잡함 (Precision을 중요시한다거나, Recall을 중요시하는 등)
- 판정에 가중치를 주어, 학습의 목적을 정할 수 있음
-
loss matrix
- 는 클래스를 로 분류하였을 때의 loss
- 결국 expected loss를 최소화하는 것은 를 최소화하는 j로 분류하는 것
- 이는 posterior 를 알면 쉽게 시행 가능
-
The reject option
- threshold 를 두어, posterior 중 가장 큰 값이 이하일 경우, 판별을 거절
- loss matrix가 주어진 경우, loss에 reject가 발생하였을 때의 loss 를 설계하여, 포함해야 함
-
Inference and decision
- inference stage(posterior modeling)와 decision stage(optimal classification)를 합쳐, input값을 받아 decision을 만들어내는 함수를 이용하는 방식도 있으며, 이 때 이 함수를 discriminant function이라고 함
-
decision problem을 푸는 세 가지 방법
-
generative model
- joint distribution(likelihood * prior) modeling
- 보통, 학습시 prior로서 학습 데이터의 클래스 분포를 이용함
- 만약 사전분포가 달라질 경우, 이에 대한 반영이 가능함
-
joint distribution을 알기에 이에 대한 총합인 marginal probability도 알 수 있고, 따라서 인공 데이터셋을 만들어낼 수도 있음
- 특히, 발생 확률이 낮은 데이터 포인트를 미리 발견할 수 있으며, 이러한 검출 방식을 outlier detection 혹은 novelty detection이라 함
-
discriminative model
- posterior modeling
- generative model에 비하여 간단하고 효율적
-
discriminant function
- posterior을 알지 못하여 얻는 불이익들이 있음
-
-
posterior을 알 때
- loss matrix가 변할 때, 새로 학습하지 않고 loss matrix만 교체해주면 됨
- maximum posterior값을 통하여 reject option을 적용 가능
- prior을 자유롭게 설정하여 학습할 수 있으며, 적용시 prior가 달라져도 반영 가능
-
분리된 모델들을 결합 가능
-
conditional independence 가정을 통하여 naive Bayes model 적용
- 분포가 에 포함되었다는 조건 하에 독립, 이를 가정하여 posterior 산출 가능
- prior 은 학습 데이터의 클래스 분포로 근사
- posterior을 normalize하는 과정은 필요함
- conditional independence 가정 없이도 데이터들을 결합시키는 방법을 뒤에서 살펴봄
-
-
Loss functions for regression
-
expected loss
-
when applied squared loss
-
to minimize , find extrema
-
multiple target vector 가정시 optimal solution
- (conditional expectation)
-
분해를 통한 또 다른 유도
- 일 때 식 최소화
- 는 노이즈에 해당
-
squared loss가 좋지 못한 결과를 야기하는 경우
-
posterior가 multimodal인 경우
- 두 mode중 좀 더 좋은 mode가 아니라, 두 mode 사이의 어딘가로 학습할 확률이 큼
-
Minkowski loss
- squared loss의 일반화
-
의 최소값
- : conditional mean
- : conditional median
- : conditional mode
-
-