← All Articles

Bishop PRML - Ch1. Introduction (3)

Posted on

Model Selection

  • overfitting

    • training set에서 가장 성능이 좋았다고 해서, 좋은 prediction 성능을 보장하지 않음
    • 좋은 generalization을 위해서는 model selection이 필요함
  • training / validation / test

    • training set : 데이터를 학습시킬 set
    • validation set : hyperparemeters, parameters을 비교 선택하는 validation을 위한 set

      • training set에 대한 overfitting에 대한 보정
      • training set을 통하여 학습한 모델들을 validation set을 통하여 평가, 가장 validation 성능이 좋은 모델이 generalization이 좋다는 가정 하에, 가장 높은 성능을 보인 모델을 선택
    • test set : 모델의 최종 성능을 판단하는 test를 위한 set

      • validation 과정에서 validation set에 모델이 overfitting될 수 있기 때문에, 이를 최종 성능으로 보기에는 무리가 있음
      • 최종적인 성능평가는 별도의 test set을 통하여 이루어짐
  • cross-validation

    • PRML의 설명이 구분상 오해할 만한 부분이 있어, 별도로 설명함
    • 데이터셋을 training set / validation set으로 쪼갠 뒤, validation set을 이용하여 학습한 모델의 generalization 성능을 평가, overfitting / selection bias에서 기인하는 poor generalization을 해결
    • exhaustive cross-validation

      • training set과 validation set을 쪼갤 수 있는 모든 방법으로 쪼갬
      • LpOCV (leave-p-out cross-validation)

        • p개의 샘플을 validation set으로 하는 모든 경우의 수에 대하여 cross-validation을 수행
        • 현실적으로 샘플수가 많아지면, 지나치게 경우의 수가 많아, 수행하기 불가능
      • LOOCV (leave-one-out cross-validation)

        • 1개의 샘플만을 validation set으로 하는 모든 경우의 수에 대하여 cross-validation을 수행
        • LpOCV의 일종으로 볼 수 있음 (p=1)
        • k-fold cross-validation을 일종으로 볼 수 있음 (k=N)
    • non-exhaustive cross-validation

      • k-fold cross-validation

        • k개의 그룹으로 데이터를 나눈 뒤, k-1개 그룹의 데이터를 training set으로 이용하며, 남은 1개 그룹의 데이터를 validation set으로 이용
        • 만들 수 있는 모든 그룹을 만드는 대신, shuffling을 진행한 뒤 그룹을 한 번 만들기에 LpOCV의 근사로 볼 수 있음
  • 다른 방법

    • cross-validation의 한계

      • cross-validation은 보편적으로 널리 쓰이는 방법이나, 복수의 모델을 학습한 뒤 사후적으로 평가한다는 단점이 있음
      • 이는 경우에 따라 모델 학습 시행 횟수를 크게 만들게 됨
    • over-fitting을 방지하기 위한 패널티 부여하는 다양한 대안 존재

      • AIC(Akaike information criterion)

        • lnp(DwML)M{\ln}p(\mathcal{D}{\mid}\mathbf{w}_{ML}) - M(M은 모델의 학습 패러미터 수)이 가장 큰 모델 선택
      • BIC(Bayesian information criterion)

        • AIC의 아종, 4.4.1에서 논의
      • 모델 패러미터의 불확실성을 고려하지 않고, 간단한 모델을 선호하는 경향이 있음
    • 전적인 베이지안 접근법을 통하여 복잡도 패널티가 자연적으로, 원리적으로 발생하는것을 3.4절에서 확인할 것
Machine LearningMLBookBishop PRML