일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- rotary position embedding
- MHA
- reinforcement learning from human feedback
- Lora
- transformer
- BLEU
- clip
- self-attention
- Rope
- benchmark
- pad masking
- fréchet inception distance
- catastrophic forgetting
- skip link
- MQA
- RLHF
- chain-of-thought
- PEFT
- attention
- Multi-Head Attention
- FID
- gqa
- LLM
- CoT
- flashattention
- re-ranking
- look-ahead masking
- Positional Encoding
- Rag
- 트랜스포머
- Today
- Total
AI Engineer의 '사부작' 공간
노이즈에서 명작으로: 확산 모델과 잠재 확산 모델(Latent Diffusion Models, LDM) 파헤치기 본문
노이즈에서 명작으로: 확산 모델과 잠재 확산 모델(Latent Diffusion Models, LDM) 파헤치기
ChoYongHo 2025. 5. 21. 23:08확산 모델 마스터하기: 핵심 원리와 잠재 확산 모델의 혁신적 효율성
이미지 생성 분야는 인공지능의 눈부신 발전 속에서 가장 뜨거운 영역 중 하나입니다. 그중에서도 확산 모델(Diffusion Models)은 마치 마법처럼 현실과 구분하기 어려운 고품질 이미지를 만들어내며 주목받고 있습니다. 하지만 이 놀라운 기술 뒤에는 어떤 원리가 숨어있을까요? 그리고 어떻게 하면 이 과정을 더욱 효율적으로 만들 수 있을까요? 이번 글에서는 확산 모델의 핵심 작동 방식과, 그 효율성을 한 차원 끌어올린 잠재 확산 모델(Latent Diffusion Models, LDM)의 비밀을 파헤쳐 보겠습니다.
확산 과정의 두 얼굴: 노이즈 추가와 제거의 예술
확산 모델의 작동 원리는 크게 두 가지 단계로 나눌 수 있습니다. 순방향 과정(Forward Process)과 역방향 과정(Reverse Process)입니다. 이 두 과정은 이미지 데이터에 점진적으로 노이즈를 추가했다가, 다시 그 노이즈를 제거하는 방식으로 작동하며, 마치 조각가가 돌덩이에서 불필요한 부분을 깎아내 작품을 완성하듯, 확산 모델은 노이즈에서 시작해 점차 선명한 이미지를 만들어냅니다.

순방향 과정 (Forward Process): 질서에서 무질서로
- 개념: 순방향 과정은 깨끗한 원본 이미지에 점진적으로 작은 가우시안 노이즈를 여러 시간 단계에 걸쳐 반복해서 추가하는 단계입니다. 각 단계에서 추가되는 노이즈의 양과 분포는 미리 정의된 스케줄(variance schedule)에 따라 결정되며, 이는 일반적으로 시간이 지남에 따라 노이즈의 강도가 커지도록 설계됩니다. 이 과정은 마르코프 연쇄(Markov chain)의 형태로 진행되어, 현재 상태는 바로 이전 상태에만 의존합니다. 충분한 단계를 거치면, 이미지는 원래 형태를 알아볼 수 없는 순수한 가우시안 노이즈 상태로 변하게 됩니다. 이 순방향 과정은 고정되어 있으며, 모델 학습이 필요 없습니다.
- 비유: 맑고 투명한 물이 담긴 잔을 상상해 보세요. 여기에 아주 작은 잉크 방울을 한 방울씩, 정해진 양만큼 규칙적으로 떨어뜨립니다. 처음에는 미미한 변화지만, 계속해서 잉크를 떨어뜨리면 결국 물 전체가 잉크색으로 완전히 흐려져 처음의 맑은 모습을 찾아볼 수 없게 됩니다. 이처럼 순방향 과정은 원본 이미지의 정보를 점차 예측 가능하게 흐리는 과정입니다.
- 예시: 고양이 사진이 있다고 가정해 봅시다. 첫 번째 단계에서는 아주 약간의 노이즈가 추가되어 거의 변화가 없어 보입니다. 하지만 수백, 수천 번의 단계를 거치면서 고양이의 형체는 점차 사라지고, 결국에는 TV 화면의 지지직거리는 노이즈와 같은, 원본 정보를 식별할 수 없는 상태가 됩니다.
역방향 과정 (Reverse Process): 무질서에서 질서로의 재창조
- 개념: 역방향 과정은 순방향 과정을 정확히 거꾸로 되돌리는 것을 목표로 합니다. 즉, 완전한 노이즈 상태에서 시작하여, 각 시간 단계에서 추가되었을 노이즈를 예측하고 제거함으로써 점차 원본 이미지에 가까운 깨끗한 이미지를 복원해냅니다. 이 과정은 순방향 과정의 각 단계를 되돌리는 확률 분포를 학습하는 것을 의미하며, 이 분포는 일반적으로 복잡한 신경망, 특히 U-Net 아키텍처를 사용하여 모델링됩니다. 모델은 현재 노이즈가 낀 데이터와 해당 시간 단계 정보를 입력받아, 해당 단계에서 추가된 노이즈를 예측하도록 학습됩니다.
- U-Net의 핵심 역할: U-Net은 이미지 분할(segmentation)과 같은 작업에서 뛰어난 성능을 보이는 신경망 구조로, 확산 모델에서는 노이즈 예측에 매우 효과적입니다. U-Net은 인코더-디코더 구조를 가지며, 인코더 부분에서는 입력 이미지의 해상도를 점차 줄여나가며 문맥 정보를 추출하고, 디코더 부분에서는 다시 해상도를 높여가며 세밀한 부분을 복원합니다. 이때 중요한 것은 인코더의 각 해상도 계층에서 디코더의 해당 계층으로 이어지는 스킵 연결(skip connections)입니다. 이 스킵 연결은 저수준의 공간적 특징(예: 가장자리, 질감)을 고수준의 의미론적 특징과 결합하여, 노이즈 제거 과정에서 이미지의 세부적인 디테일을 잃지 않고 정교하게 복원할 수 있도록 돕습니다. 즉, 이미지의 전체적인 구조와 국소적인 디테일을 동시에 고려하여 노이즈를 효과적으로 제거하는 것입니다.
- 비유: 앞서 잉크로 흐려진 물 잔을 다시 생각해 봅시다. 이제 특수한 지능형 필터(U-Net)를 사용해 물속의 잉크 입자를 단계별로, 어떤 잉크가 언제 얼마나 추가되었는지 정확히 예측하여 제거한다고 상상해 보세요. 각 단계마다 물은 조금씩 더 맑아지고, 충분한 단계를 거치면 처음의 깨끗한 물 상태로 돌아갈 수 있습니다. 역방향 과정은 이처럼 학습된 모델을 통해 노이즈를 점진적으로 제거하여 숨겨진 이미지를 드러내는 정교한 과정입니다.
- 예시: 무작위 노이즈 이미지에서 시작합니다. 학습된 U-Net 모델은 현재 이미지와 해당 시간 단계 정보를 바탕으로 "이 단계에서 어떤 노이즈가 추가되었을까?"를 정밀하게 예측합니다. 그리고 그 예측된 노이즈를 이미지에서 빼줍니다. 이 과정을 반복하면, 처음에는 의미 없어 보이던 노이즈 덩어리가 점차 고양이의 윤곽을 드러내고, 다양한 특징들이 나타나며, 결국에는 선명하고 사실적인 고양이 이미지로 변신하게 됩니다. 모델은 방대한 데이터 학습을 통해 노이즈의 통계적 특성과 이미지의 구조를 이해하게 됩니다.
잠재 확산 모델 (LDM): 효율성의 날개를 달다
표준적인 확산 모델은 매우 높은 품질의 이미지를 생성할 수 있지만, 한 가지 큰 단점이 있었습니다. 바로 고해상도 이미지의 픽셀 공간에서 직접 확산 과정을 수행하기 때문에 엄청난 계산량과 메모리를 요구한다는 점입니다. 이는 마치 거대한 운동장 전체에 그림을 그리고 지우는 작업을 반복하는 것과 같아 매우 비효율적입니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 잠재 확산 모델 (Latent Diffusion Model, LDM)입니다. LDM은 Stable Diffusion과 같은 유명한 이미지 생성 모델의 기반 기술이기도 합니다. LDM의 핵심 아이디어는 "고차원 픽셀 공간이 아닌, 훨씬 작은 저차원 잠재 공간(Latent Space)에서 확산 과정을 수행하자"는 것입니다.

LDM의 작동 방식: 압축, 잠재 공간 확산, 그리고 복원
LDM은 다음 세 가지 주요 단계를 통해 효율성을 극대화합니다.
압축 (Compression): 의미론적 정보 추출
- 개념: 먼저, 사전 훈련된 강력한 오토인코더(Autoencoder), 특히 VAE(Variational Autoencoder)의 인코더를 사용하여 원본 고해상도 이미지를 훨씬 작은 차원의 잠재 공간 표현으로 압축합니다. 이 잠재 표현은 원본 이미지의 단순한 픽셀 집합이 아니라, 이미지의 핵심적인 의미론적 내용과 구조적 특징을 담고 있으면서, 고주파수의 미세한 디테일이나 중복 정보는 효과적으로 제거합니다. VAE는 재구성 손실과 함께 잠재 공간의 분포를 정규화하는 항(Kullback–Leibler divergence, KLD)을 사용하여 학습되므로, 잘 구조화되고 연속적인 잠재 공간을 형성합니다. 이는 단순한 압축을 넘어 '지각적 압축(perceptual compression)'이라 할 수 있으며, 인간이 인지하는 중요한 시각 정보를 보존하는 데 초점을 맞춥니다.
- 비유: 방대한 양의 정보를 담고 있는 백과사전을 단순히 글자 수를 줄여 요약하는 것이 아니라, 그 내용을 깊이 이해한 전문가가 핵심 주제, 주요 등장인물, 플롯의 정수를 추출하여 매우 함축적이면서도 풍부한 의미를 담은 '개념 지도'나 '스토리보드'로 만드는 것과 같습니다. 이 지도는 원본보다 훨씬 다루기 쉽지만, 핵심 정수는 그대로 간직하고 있습니다.
잠재 공간에서의 확산 (Latent Space Diffusion): 조건부 생성을 통한 정교한 제어
- 개념: 앞서 설명한 순방향(노이즈 추가) 및 역방향(노이즈 제거 학습 및 추론) 확산 과정 전체가 바로 이 압축된 저차원 잠재 공간 내에서 이루어집니다. 즉, U-Net은 고해상도 픽셀이 아닌, 이 잠재 표현에 대해 작동합니다. LDM의 중요한 혁신 중 하나는 조건부 생성(Conditional Generation) 메커니즘의 통합입니다. 이를 통해 텍스트 프롬프트, 스케치, 의미론적 맵(semantic map), 또는 다른 이미지와 같은 외부 정보를 확산 과정에 주입하여 생성 과정을 정교하게 제어할 수 있습니다.
- 크로스-어텐션을 통한 조건 통합: 조건 정보는 먼저 해당 양식에 맞는 인코더를 통해 변환된 후, U-Net 내부의 크로스-어텐션(Cross-Attention) 레이어를 통해 잠재 표현의 노이즈 제거 과정에 통합됩니다. 크로스-어텐션 메커니즘에서, 현재의 노이즈 낀 잠재 표현이 '쿼리(Query)' 역할을 하고, 조건 정보에서 파생된 표현이 '키(Key)'와 '밸류(Value)' 역할을 합니다. 이를 통해 U-Net은 각 노이즈 제거 단계에서 현재 처리 중인 이미지 영역과 가장 관련성이 높은 조건 정보 부분에 '주의'를 기울여, 생성되는 이미지의 내용과 스타일을 조건에 맞게 조절합니다.
- 비유 (조건부 생성): 숙련된 화가가 그림을 그리는 상황을 생각해 봅시다. 화가(U-Net)는 캔버스 위의 밑그림(잠재 표현)을 다듬어 나갑니다. 이때, 고객의 구체적인 요청 사항("석양 아래 해변을 걷는 커플의 모습을 낭만적인 유화 스타일로 그려주세요" - 텍스트 프롬프트)이 있다면, 화가는 이 요청 사항(조건 정보)을 계속 참조하며 붓질의 방향, 색상 선택, 구도 등을 결정합니다. 크로스-어텐션은 화가가 요청 사항의 각 요소(예: "석양", "해변", "커플", "낭만적", "유화 스타일")를 그림의 적절한 부분과 연결 짓는 과정과 유사합니다.
복원 (Reconstruction): 잠재 공간에서 현실로:
- 개념: 잠재 공간에서 역방향 확산 과정이 완료되어 깨끗한 잠재 벡터가 얻어지면, VAE의 디코더 부분이 이 잠재 벡터를 다시 원래의 고해상도 픽셀 공간 이미지로 복원합니다. VAE는 원본 이미지의 중요한 시각적 특징을 보존하며 고품질로 복원하도록 학습되었기 때문에, 디코더는 의미론적으로 풍부한 잠재 표현으로부터 시각적으로 선명하고 디테일이 살아있는 이미지를 생성할 수 있습니다.
- 비유: 앞서 만든 정교한 '개념 지도'나 '스토리보드'가 완성되면, 이를 바탕으로 숙련된 작가나 영화감독(디코더)이 풍부한 묘사와 생생한 장면들로 가득 찬 완전한 소설이나 영화를 만들어내는 것과 같습니다.
LDM의 혁신적인 효율성
고차원의 픽셀 공간 대신 저차원의 잠재 공간에서 핵심 연산을 수행함으로써, LDM은 U-Net의 계산 부담과 메모리 요구량을 획기적으로 줄입니다. 예를 들어, 512x512 픽셀 이미지(약 26만 픽셀)가 VAE를 통해 8배 다운샘플링되어 64x64 잠재 표현(약 4천 유닛)으로 압축된다면, U-Net이 처리해야 할 데이터의 크기는 약 1/64로 줄어듭니다. U-Net의 연산량은 입력 크기에 대해 제곱 이상으로 증가하는 경향이 있으므로, 이러한 차원 감소는 전체적인 학습 및 추론 속도를 대폭 향상시키고 필요한 컴퓨팅 자원을 크게 절감합니다. 이는 마치 무거운 갑옷을 벗고 가벼운 특수복으로 갈아입은 전사가 훨씬 빠르고 민첩하게, 그리고 더 정교한 기술을 구사할 수 있게 된 것과 같습니다.
마무리하며
확산 모델은 노이즈를 점진적으로 추가하고 다시 정교하게 제거하는 독창적인 방식으로 고품질 이미지 생성의 새로운 지평을 열었습니다. 순방향 과정과 역방향 과정이라는 핵심 원리를 통해, 무질서 속에서 질서를 창조해내는 이 기술은 그 자체로도 놀랍습니다. U-Net과 같은 강력한 신경망 아키텍처는 이 역방향 과정을 성공적으로 수행하는 데 결정적인 역할을 합니다. 여기에 잠재 확산 모델(LDM)은 이미지의 본질적인 의미를 담은 저차원 잠재 공간에서 확산 과정을 수행하고, 크로스-어텐션과 같은 메커니즘을 통해 정교한 조건부 제어를 가능하게 함으로써, 계산 효율성과 생성 품질이라는 두 마리 토끼를 모두 잡았습니다.
Denoising Diffusion Probabilistic Models
We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound
arxiv.org
https://arxiv.org/abs/2112.10752
High-Resolution Image Synthesis with Latent Diffusion Models
By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t
arxiv.org
'Theory > Image Generation-Diffusion' 카테고리의 다른 글
AI 이미지 생성, 나만의 스타일을 입히다: 파인튜닝 기법 완전 정복 가이드 (0) | 2025.05.27 |
---|---|
ControlNet: 내 손안의 AI 아티스트, 상상하는 대로 이미지를 조종하다 (0) | 2025.05.23 |
확산 모델 샘플링 전략: 속도와 품질의 완벽한 균형을 찾아서 (0) | 2025.05.23 |
클래시파이어-프리 가이던스(Classifier-Free Guidance, CFG): 분류기 없이 더 똑똑해진 이미지 생성의 비밀 (0) | 2025.05.23 |
확산 트랜스포머(DiT): U-Net을 넘어선 이미지 생성 모델의 새로운 지평 (0) | 2025.05.22 |