← All Articles

Bishop PRML - Ch1. Introduction (4)

Posted on

The Curse of Dimensionality

  • PRML의 설명이 해당 개념을 이해하기에 충분하지 않다고 판단되어, 별도로 설명함
  • 고차원의 데이터를 분석할 때, 저차원에서는 발생하지 않는 다양한 현상들이 관측됨

    • 모델링을 하기 위해 필요한 샘플수가 증가함

      • 차원이 증가할 때, 부피(조합수)는 지수적으로 증가함
      • 부피를 표현하기 위하여 필요한 샘플수가 지수적으로 증가함(피처의 다양한 조합들이 나타나기 위한 샘플수가 지수적으로 증가함)
      • 동일한 샘플수에 대하여, 피처의 차원이 증가함에 따라 그 예측능력은 증가하다가 감소함 (Houghes phenomenon / peaking phenomena)
    • 거리가 저차원에서와는 다르게 기능함

      • IID일 때 고차원에서는 대부분의 데이터가 중심점으로부터 먼 외곽에 분포하게 되며, 모든 거리가 유사하게 되어 의미를 잃어버림
      • 각 어트리뷰트가 correlated 되어있을 경우, 고차원에서는 거리가 보다 극적으로 기능함
  • 저차원 공간에서 발전시킨 아이디어가, 고차원에서 반드시 적용되지는 않는 점을 염두에 두어야 함
  • 차원의 저주가 있음에도, 고차원 데이터에 대해서도 효과적인 패턴 인식 테크닉을 적용할 수 있음

    • 타겟 변수에 변화를 주는 유의미한 차원의 수는 보통 제한적

      • 피처 스페이스가 고차원이더라도, 실제 데이터는 보통 저차원 매니폴드 위에 분포하게 됨
    • 실제 데이터는 지역적으로는 매끄럽기에 보간 등의 테크닉 적용 가능
Machine LearningMLBookBishop PRML