1. Information(정보량) : 주어진 임의의 이벤트에서 발생하는 놀라움(?)의 정도
- *
: stochastic event - *
: Probability of Event E
example : 주사위를 던질 때 6이 나올 확률이 90%라 하자. 나머지 1~5까지 나올 확률은 2.5%라 하자. 이 때 각 확률이 나올 Information은 아래와 같다.
이 때 주사위를 굴릴 때의 정보량은 아래와 같다.
이 때
2. Entropy
- *
: 가 일어날 확률 - *
: 에서의 information
위의 식에서도 알 수 있듯, Entropy는 Information의 기대값이다. 예시를 들어서 생각해보자.
example :
- 동전을 던질 때 앞면과 뒷면의 확률이 같을 경우 :
- 동전을 던질 때 앞면과 뒷면의 확률이 다를 경우 :
위의 1번예와 2번예의 차이는 뭘까?
2번예는 1번예에 비해 정보량이 균일하지 않다. 2번 예 같은 경우 한쪽의 확률이 높으므로 예측하기가 쉽다고도 할 수 있다. 또한 수치적으로는 2번예는 1번예에 비해 Entropy라고 정의한 H의 값이 더 작다. 즉 2번예는 1번예에 비해 Entropy가 더 작다.
이를 인지하고 아래 그래프를 보자.
위의 그래프에서 H 는 Entropy 이다. 이 H값이 작을수록 중앙값에 더 몰려있는 것을 알 수 있다.
즉 엔트로피가 클수록 확률분포가 더 균일하다고 할 수 있다.
여기서 다시 Entropy 를 정리해 보자.
Entropy란 :
- 확률분포
에서 일어날 수 있는 모든 사건들의 정보량의 기대값으로 의 불확실 정도를 평가한 값 - 정보이론에서의 Entropy : 정보를 표현하는데 필요한 최소평균자원량
- Machine Learning 에서 Entropy를 사용할 때 밑을 2가 아닌 e를 사용하는데 이는 미분과 적분이 용이하기 때문이다
- Entropy는 확률분포 P(X)가
uniform distribution
일 때 최대화된다. - Entropy는 확률분포 P(X)가
delta function
일 때uniform distribution
일 때 최대화된다.
3. Cross Entropy
(아래의 용어설명은 machine learning에서 쓰이는 용어로 기술하였다.)
일반적으로
즉 예측된 값
반대로 말하면 예측값이
4. KL-Divergence(Kullback-Leibler Divergence)
Cross Entropy
KL-Divergence는 위에 그 커진 값이 얼마나 커졌는지 수식으로 나타낸다.
위의 수식(8)에서
5. Mutual Information
임의의 두 확률변수
만약
KL-Divergence 가 두 분포간의 entropy의 차이를 구했다면 Mutual Information은 두 분포가 얼마나 독립적인지를 구한다.