Math/확률및 통계

[Math] Information, Entropy, Cross-Entropy, KL-Divergence, Mutual-Information 정리

LiaLi_1997 2023. 10. 17. 11:33

1. Information(정보량) : 주어진 임의의 이벤트에서 발생하는 놀라움(?)의 정도

  • * : stochastic event
  • * : Probability of Event E

example : 주사위를 던질 때 6이 나올 확률이 90%라 하자. 나머지 1~5까지 나올 확률은 2.5%라 하자. 이 때 각 확률이 나올 Information은 아래와 같다.

이 때 주사위를 굴릴 때의 정보량은 아래와 같다.

이 때 이 나오는 것보다 가 나오는 것이 더 놀랍다. 이러한 정보를 나타내는 수치가 information 이다.


2. Entropy

  • * : 가 일어날 확률
  • * : 에서의 information

위의 식에서도 알 수 있듯, EntropyInformation의 기대값이다. 예시를 들어서 생각해보자.
example :

  1. 동전을 던질 때 앞면과 뒷면의 확률이 같을 경우 :
  1. 동전을 던질 때 앞면과 뒷면의 확률이 다를 경우 :

위의 1번예와 2번예의 차이는 뭘까?
2번예는 1번예에 비해 정보량이 균일하지 않다. 2번 예 같은 경우 한쪽의 확률이 높으므로 예측하기가 쉽다고도 할 수 있다. 또한 수치적으로는 2번예는 1번예에 비해 Entropy라고 정의한 H의 값이 더 작다. 즉 2번예는 1번예에 비해 Entropy가 더 작다.
이를 인지하고 아래 그래프를 보자.

위의 그래프에서 H 는 Entropy 이다. 이 H값이 작을수록 중앙값에 더 몰려있는 것을 알 수 있다.
즉 엔트로피가 클수록 확률분포가 더 균일하다고 할 수 있다.

여기서 다시 Entropy 를 정리해 보자.

Entropy란 :

  • 확률분포 에서 일어날 수 있는 모든 사건들의 정보량의 기대값으로 의 불확실 정도를 평가한 값
  • 정보이론에서의 Entropy : 정보를 표현하는데 필요한 최소평균자원량
  • Machine Learning 에서 Entropy를 사용할 때 밑을 2가 아닌 e를 사용하는데 이는 미분과 적분이 용이하기 때문이다
  • Entropy는 확률분포 P(X)가 uniform distribution일 때 최대화된다.
  • Entropy는 확률분포 P(X)가 delta function일 때 uniform distribution일 때 최대화된다.

3. Cross Entropy

(아래의 용어설명은 machine learning에서 쓰이는 용어로 기술하였다.)
: real value distribution(실제 값의 분포)
: prediction value distribution(예측 값의 분포)

일반적으로 이다.

즉 예측된 값 에 가까워질수록 에 가까워진다.
반대로 말하면 예측값이 에 멀어지면 엔트로피가 커지는 경향이 존재한다고 볼 수 있다.


4. KL-Divergence(Kullback-Leibler Divergence)

Cross Entropy 는 예측값인 의 값이 와 멀어질수록 Entropy가 커지는 경향을 가진다.
KL-Divergence는 위에 그 커진 값이 얼마나 커졌는지 수식으로 나타낸다.

위의 수식(8)에서 는 cross entropy, 에 대한 entropy 이다. 수식(8)은 이 두 수식의 차를 구했으므로 일종의 거리함수로 볼 수 있다.


5. Mutual Information

임의의 두 확률변수 독립이라면 Joint Distribution은 확률의 곱으로 표현할 수 있다.

만약 가 독립이 아니라면 확률 곱Joint Distribution간의 차이를 KL-Divergence로 측정이 가능하다.

KL-Divergence두 분포간의 entropy의 차이를 구했다면 Mutual Information두 분포가 얼마나 독립적인지를 구한다.