Bishop PRML - Ch1. Introduction (6)
Posted on
Information Theory
-
information
-
information(surprisal)
-
entropy
- expected information (expected surprisal)
-
-
thermodynamics
- 총 입자수, 싱태에 개의 입자가 속함
-
multiplicity
- (Linus Pauling, 1969)
- the number of microstates corresponding to a macrostate
- N개의 입자가 가질 수 있는 총 상태의 수
-
entropy
- () (Ralph Baierlein, 1999)
-
- 만약 온도를 섭씨의 스케일을 따른 절대온도를 쓰지 않고, 적절하게 스케일링한 온도 ()를 쓸 경우
-
- (입자가 상태에 속할 확률)
-
비를 유지시키면서
- (Stirling’s approximation)
-
discrete distribution에서 entropy의 성질
- 일때
-
가 uniform할 때 가 최대
-
Lagrange multiplier 통해 증명
-
functional
- stationary point를 찾으면 모든 값이 같은 경우가 됨
-
second derivative를 구하면 음수로, 최대치임을 확인 가능
-
- Jensen’s inequality를 통해서도 유도 가능
-
-
continuous distribution
-
- measure theory에서 실수 변수를 너비의 인터벌로 쪼갠 뒤, 각 인터벌의 분포를 discrete로 가정 후, 를 취하여 continuous한 경우에 대한 식을 얻을 수 있음
-
- multivariable
-
-
continuous distribution에서 entropy의 성질
-
Lagrange multiplier적용하기 위하여 constraint셋업
-
functinal
-
stationary point
-
- constraint 이용
- 가우시안 분포 하에서 엔트로피 최대가 된다는 것 확인 가능
-
가우시안 분포 하에서의 엔트로피
-
- 이 클 수록 엔트로피가 증가
- 일 때,
-
-
-
conditional entropy
- conditional probability에 대한 entropy
-
joint entropy
- 와 를 특정하기 위한 정보량은 를 특정하기 위한 정보량과 가 주어졌을 때 를 특정하기 위한 정보량의 합 (덧셈임에 주의)
-
Kullback-Leibler divergence (relative entropy)
- 비대칭임에 주의 ()
-
분포의 dissmilarity 척도
-
증명 : Jensen’s inequality
- for convex function
-
- 는 convex,
-
-
- 의 entropy()를 constant 취급할 경우, 앞 항()만 남음
-
가 조건부 레이블 분포, 가 조건부 예측 분포라고 할 때, 이 값은 곧 cross-entropy가 됨
- 이 값은 곧 negative log likelihood와 동일
- multinomial distribution(classification 문제)에서는 곧 cross-entropy error
- gaussian distribution(regression 문제)에서는 곧 SSE
-
조절 가능한 패러미터 에 종속된 parametric distribution 를 통하여 알려지지 않은 분포 를 찾는 상황을 가정
- 는 모르지만 에서 샘플링된 학습 데이터셋 은 있는 상태, 데이터셋을 통하여 의 기대값 근사 가능
-
이 때, KLD를 구하면
- 두 번째 항은 에 대하여 독립, 첫 번째 항은 negative log likelihood
-
mutual information
- 두 변수가 얼마나 독립적인지 척도
- 와 가 서로 독립일 때