주녕콩 2023. 5. 15. 03:27

 

Stable Diffusion은 2022년에 발표된 text-to-image 딥러닝 모델입니다.

 

기존 모델과는 다르게 8GB 정도의 적은 VRAM 만으로 구동이 가능하여 일반 소비자에게도 접근성이 가능합니다.

 

그래프를 보면 Latent Diffusion 모델의 Rate(bits/dim)가 제일 낮은 것을 알수 있다. 더 적은 비트 수로 더 많은 Dimension(치수)을 내포할 수 있습니다.

 

Stable diffusion의 모델 구조

 

https://towardsdatascience.com/what-are-stable-diffusion-models-and-why-are-they-a-step-forward-for-image-generation-aa1182801d46

 

Latent Diffusion은 이미지 학습을 위해 첫 단계에서 VAE나 U-Net과 같은 인코딩 방법을 사용하여 이미지를 변환합니다.

 

 

위의 x는 인코더를 하며 정보나 형태를 변환하여 저장합니다. 밑의 x는 디코더 하여 정보를 다시 필요 부분들을 고치며 수정하여 출력합니다.

 

Latent Diffusion의 기본적인 이미지 생성 원리도 이와 같지만 더 발전했다. Latent Diffusion도 마찬가지로 노이즈에서 복원하는 것은 같지만 이미지를 바로 복원하는 것이 아니라 Latent vector를 복원한 후, 이 Latent vector가 다시 VAE를 거쳐야 이미지가 되는 것이다.