새소식

Deep Learning

[draft] Forward KL VS Reverse KL

  • -

P :True distribution, Q :Guess distribution  

KL(P||Q)=E[log(Px/Qx)]=PX∙log(P(X)/Q(X))

 

 
Figure 1.

KL(Q||P)= E[log(Qx/Px)]=QX∙log(Q(X)/P(X))

Figure 2.

 

1. Forward KL Divergence

A. 우리는 KL Divergence 값을 최소화하여야 한다. , KL Divergence 값이 커지는 것을 피해야 한다.

B. KL(P||Q)에서 P값이 0이 되지 않도록 해야 한다. (Zero-avoiding)

C. KL(P||Q)에서 Q값이 0에 가까워질수록, KL Divergence 값이 기하급수적으로 거대해진다.

D. 따라서 Forward KL DivergenceFigure 1모양을 선호하며, P의 전체 노드를 커버한다.

 

2. Reverse KL Divergence

A. KL(Q||P)KL(P|||Q)와 값이 같지 않다. 그러므로 KL Divergence는 거리를 나타낼 수 없다.

B. KL(Q||P)에서 Q값이 0일 때, 모든 값이 의미가 없어진다.

C. KL(Q||P)에서 P값이 0에 가까워질수록, KL Divergence의 값이 기하급수적으로 커진다.

D. 이를 방지하기 위해서는, P값이 0에 가까워질 때, Q값도 따라서 0에 가까워져야 한다. (Zero-Forcing)

'Deep Learning' 카테고리의 다른 글

Batch Normalization, 배치 정규화  (0) 2021.05.10
[draft] Ranking Loss (Pairwise, Triplet)  (0) 2021.05.03
[draft] Cross Entropy Loss  (0) 2021.04.05
[draft] Hinge Loss  (0) 2021.04.05
[draft] Loss Function  (0) 2021.04.05
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.