본문으로 건너뛰기

"deep-learning" 태그로 연결된 2개 게시물개의 게시물이 있습니다.

모든 태그 보기

분포 거리 측정 (Part 2) - Forward vs Reverse KL, 그리고 VAE

· 약 9분
Nam Young Kim
Data Fullstack Engineer

Forward KL과 Reverse KL의 차이, Mode-covering과 Mode-seeking 행동의 이해. VAE의 Reparameterization Trick까지 상세 설명.

들어가며

Part 1에서 KL Divergence의 정의와 정보이론적 의미를 살펴봤습니다. 그런데 한 가지 의문이 남습니다. KL Divergence가 비대칭적이라면, DKL(PQ)D_{KL}(P \| Q)DKL(QP)D_{KL}(Q \| P) 중 어떤 것을 사용해야 할까요?

이 선택은 단순한 수학적 문제가 아닙니다. ML 모델의 학습 행동을 근본적으로 바꿉니다. 이번 글에서는 Forward KL과 Reverse KL의 차이를 깊이 이해하고, VAE에서 Reparameterization Trick이 왜 필요한지 알아보겠습니다.

분포 거리 측정 (Part 3) - JSD와 Wasserstein Distance

· 약 8분
Nam Young Kim
Data Fullstack Engineer

GAN 학습이 어려운 이유와 해결책. JSD의 gradient vanishing 문제부터 Wasserstein Distance, WGAN까지의 발전 과정.

들어가며

Part 1에서 KL Divergence의 정보이론적 의미를 살펴봤습니다. 하지만 KL Divergence에는 실용적인 한계가 있습니다. 비대칭적이고, 특정 상황에서 무한대로 발산합니다. 이번 글에서는 이러한 한계를 극복하기 위해 등장한 **Jensen-Shannon Divergence(JSD)**와, GAN 학습에서 JSD의 치명적인 문제를 해결한 Wasserstein Distance를 다룹니다.

이 여정을 따라가다 보면 GAN이 왜 학습하기 어려운지, 그리고 WGAN이 어떻게 이를 해결했는지 깊이 이해할 수 있습니다.