반응형

2026/01/20 2

[Generative Models] VQ-VAE 정리

VQ-VAE는 VAE에서 latent를 quantize한 것이다. 덕분에 noise에 resistant하다던가 하는 얘기가 있는데 안써봐서 잘은 모르겠다.embedding space에 latent값을 따로 넣고, encoder를 통해서 접근할 codebook의 index를 찾고, encoder output을 그 codebook의 값으로 대체하는 방식이다. 첫번째 항은 당연히 reconstruction term이다. quantized embedding에서 decoder를 거쳐서 recon이 되도록 하는 것이 목적.두번째 항은 reg term이다. 코드북 벡터를 update한다. 이때 encoder 출력은 freeze한다. 세번째 항도 reg term이다. 여기서는 encoder를 학습해서 codebook..

[Generative Models] VAE 수식 전개 및 의미 정리

요새 VLM, LLM, 생성 모델 연구를 하고 있어서, 그에 기본이 되는 VAE 수식 의미 정리를 하고자 한다.어차피 최신 연구가 아니기도 하니 주요한 부분만 골라서 보고 정리할 것.아래는 VAE의 대략적 구조. gradient descent를 위해서 reparameterization trick을 사용하여 latent를 표현한다.아래는 optimization criterion. 최종적으로 recon error, reg error, 그리고 버리는 항 하나; 이렇게 세가지로 나뉜다. 첫 항은 encoder $q_theta$로 recon target $x$를 구하는 식이니 reconstruction 부분을 담당하고, 두번째 항은 latent prior 등으로 쓰는 gaussian $p(x)$등에 대하여 가까워..

반응형