P :True distribution, Q :Guess distribution
KL(P||Q)=E[log(Px/Qx)]=PX∙log(P(X)/Q(X))
KL(Q||P)= E[log(Qx/Px)]=QX∙log(Q(X)/P(X))
1. Forward KL Divergence
A. 우리는 KL Divergence 값을 최소화하여야 한다. 즉, KL Divergence 값이 커지는 것을 피해야 한다.
B. KL(P||Q)에서 P값이 0이 되지 않도록 해야 한다. (Zero-avoiding)
C. KL(P||Q)에서 Q값이 0에 가까워질수록, KL Divergence 값이 기하급수적으로 거대해진다.
D. 따라서 Forward KL Divergence는 Figure 1모양을 선호하며, P의 전체 노드를 커버한다.
2. Reverse KL Divergence
A. KL(Q||P)는 KL(P|||Q)와 값이 같지 않다. 그러므로 KL Divergence는 거리를 나타낼 수 없다.
B. KL(Q||P)에서 Q값이 0일 때, 모든 값이 의미가 없어진다.
C. KL(Q||P)에서 P값이 0에 가까워질수록, KL Divergence의 값이 기하급수적으로 커진다.
D. 이를 방지하기 위해서는, P값이 0에 가까워질 때, Q값도 따라서 0에 가까워져야 한다. (Zero-Forcing)