| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- chain-of-thought
- reinforcement learning from human feedback
- fréchet inception distance
- RLHF
- rotary position embedding
- Multi-Head Attention
- extended thinking
- 트랜스포머
- 토크나이저
- model context protocol
- catastrophic forgetting
- CoT
- Engineering at Anthropic
- gqa
- re-ranking
- context engineering
- attention
- Embedding
- Langchain
- langgraph
- PEFT
- self-attention
- SK AI SUMMIT 2025
- test-time scaling
- flashattention
- MQA
- transformer
- Positional Encoding
- BLEU
- MHA
- Today
- Total
AI Engineer 공간 "사부작 사부작"
클래시파이어-프리 가이던스(Classifier-Free Guidance, CFG): 분류기 없이 더 똑똑해진 이미지 생성의 비밀 본문
클래시파이어-프리 가이던스(Classifier-Free Guidance, CFG): 분류기 없이 더 똑똑해진 이미지 생성의 비밀
ChoYongHo 2025. 5. 23. 08:15클래시파이어-프리 가이던스(CFG): 분류기 없이 더 똑똑해진 이미지 생성의 비밀
인공지능(AI)이 만들어내는 이미지의 품질이 날로 발전하면서, 이제는 단순한 그림을 넘어 사용자의 복잡한 요구까지 반영하는 수준에 이르렀습니다. 이러한 발전의 중심에는 '클래시파이어-프리 가이던스(Classifier-Free Guidance, CFG)'라는 핵심 기술이 자리 잡고 있습니다. CFG는 마치 숙련된 예술가가 고객의 미묘한 요구사항까지 파악하여 작품에 반영하듯, AI가 사용자의 의도(예: 텍스트 프롬프트)를 더욱 깊이 이해하고 그에 부합하는 이미지를 생성하도록 유도하는 정교한 기법입니다. 이름에서 알 수 있듯이, 이 과정에서 별도의 이미지 분류기를 사용하지 않는다는 점이 가장 큰 특징입니다. 이번 글에서는 CFG가 어떤 원리로 작동하며, 기존 방식과 비교해 어떤 장점을 통해 이미지 생성 모델의 성능을 한 단계 끌어올렸는지 쉽고 자세하게 알아보겠습니다.
CFG 이전: 별도의 '감별사'가 필요했던 시절
CFG를 이해하기 전에, 잠시 과거의 '클래시파이어 가이던스(Classifier Guidance)' 방식을 살펴볼 필요가 있습니다. 이 방식은 생성 모델이 이미지를 만드는 과정에서, 별도로 훈련된 이미지 분류기를 '감별사'처럼 활용했습니다. 생성 중인 이미지가 주어진 조건(예: "고양이"라는 레이블)에 얼마나 부합하는지를 이 분류기가 판단하고, 그 결과를 바탕으로 이미지가 더 조건에 맞도록 방향을 수정해주는 역할을 했죠.
클래시파이어 가이던스: 마치 조각가가 작품을 만들 때, 옆에서 미술 평론가가 "이 부분은 고양이의 날렵함이 부족하네요", "눈매를 더 살려야 합니다" 와 같이 계속해서 조언하며 작품의 완성도를 높여가는 모습과 유사합니다. 하지만 이 방식은 몇 가지 번거로움이 있었습니다. 우선, 생성 모델 외에 고품질의 분류기를 추가로 훈련하고 유지해야 했습니다. 이는 더 많은 데이터와 컴퓨팅 자원을 필요로 했고, 두 모델을 결합하는 과정도 복잡했습니다. 또한, 분류기가 특정 데이터셋에 과적합될 경우 생성되는 이미지의 다양성이 저해될 수도 있었습니다.
혁신의 등장: 클래시파이어-프리 가이던스(CFG)의 작동 원리
이러한 기존 방식의 한계를 극복하기 위해 등장한 것이 바로 클래시파이어-프리 가이던스입니다. CFG의 핵심 아이디어는 "생성 모델 스스로 조건부 생성과 비조건부 생성을 모두 학습하고, 이 둘의 차이를 이용해 가이던스를 제공하자"는 것입니다. 별도의 '감별사' 없이, 모델 자체의 능력을 최대한 활용하는 방식이죠.
개념: CFG는 확산 모델(Diffusion Model)을 훈련할 때부터 두 가지 시나리오를 함께 학습시킵니다. 하나는 텍스트 프롬프트와 같은 특정 조건이 주어졌을 때 이미지를 생성하는 방법(조건부 생성)이고, 다른 하나는 아무런 조건 없이 자유롭게 이미지를 생성하는 방법(비조건부 생성)입니다. 그리고 실제 이미지를 생성할 때는 이 두 가지 정보를 조합하여 결과물을 만들어냅니다.
CFG의 작동 방식은 크게 훈련 단계와 추론(이미지 생성) 단계로 나눌 수 있습니다.
1. 훈련 단계: 두 가지 역할을 학습하는 만능 배우
CFG를 사용하는 확산 모델은 훈련 과정에서 일정 확률로 입력되는 조건(예: 텍스트 임베딩)을 의도적으로 제거하거나 빈 값으로 대체합니다. 이를 '조건부 드롭아웃(conditional dropout)'이라고도 부릅니다.
- 조건부 훈련: 모델은 노이즈가 낀 이미지와 함께 텍스트 프롬프트 같은 조건 정보를 입력받아, 주어진 조건에 맞는 원래 이미지를 복원(노이즈 예측)하도록 학습합니다.
- 비조건부 훈련: 모델은 조건 정보 없이 노이즈가 낀 이미지만으로 원래 이미지를 복원하도록 학습합니다.
비유: 마치 한 명의 배우가 두 가지 역할을 연습하는 것과 같습니다. 때로는 "슬픈 표정의 왕"이라는 구체적인 지시(조건)에 맞춰 연기 연습을 하고(조건부 훈련), 때로는 아무런 지시 없이 자유롭게 다양한 감정을 표현하는 연습(비조건부 훈련)을 하는 것이죠. 이를 통해 배우는 어떤 상황에서도 능숙하게 연기할 수 있는 능력을 갖추게 됩니다.
2. 추론 단계: 조건과 자유로움 사이의 절묘한 줄타기
훈련된 모델로 실제 이미지를 생성할 때는 다음과 같은 과정을 거칩니다.
- 두 가지 예측 동시 수행: 각 노이즈 제거 단계에서 모델은 두 가지 예측값을 계산합니다.
- 조건부 예측: 입력된 프롬프트(조건)를 따랐을 때의 노이즈 예측값입니다.
- 비조건부 예측: 아무런 조건이 없을 때의 노이즈 예측값입니다.
- 가이던스 적용 (마법의 공식): 최종적으로 사용할 노이즈 예측값은 이 두 예측값을 조합하여 만들어집니다. 그 공식은 다음과 같습니다:여기서 w는 가이던스 스케일(guidance scale) 또는 가이던스 강도라고 불리는 중요한 매개변수입니다. 이 값은 비조건부 예측에서 조건부 예측 방향으로 얼마나 더 나아갈지를 결정합니다.
- 만약 w = 0이면, 비조건부 예측값만 사용되어 프롬프트와 상관없는 이미지가 생성됩니다.
- 만약 w = 1이면, 순수한 조건부 예측값이 사용됩니다.
- 만약 w > 1이면, 조건부 예측 방향으로 더욱 강조되어 프롬프트의 내용을 더 강하게 반영하는 이미지가 생성됩니다.
- 최종 예측값 = 비조건부 예측값 + w × (조건부 예측값 - 비조건부 예측값)
- 이미지 업데이트: 이렇게 계산된 최종 노이즈 예측값을 사용하여 현재 노이즈 이미지에서 노이즈를 제거하고 다음 단계의 이미지를 얻습니다. 이 과정을 여러 번 반복하면 최종 이미지가 완성됩니다.
예시: "은하수를 배경으로 한 우주비행사 고양이"
사용자가 "은하수를 배경으로 한 우주비행사 고양이"라는 프롬프트를 입력했다고 가정해 봅시다.
- 비조건부 예측: 모델은 특별한 지향점 없이 일반적인 이미지(다양한 사물, 풍경 등)를 만들려는 경향을 보입니다.
- 조건부 예측: 모델은 "은하수", "우주비행사", "고양이"라는 요소들을 최대한 반영하려고 합니다.
- CFG 적용: 가이던스 스케일 w를 조절하여, 비조건부 예측의 자유로움과 조건부 예측의 구체성 사이에서 균형을 찾습니다.
- w 값이 낮으면 (예: 1.5): 좀 더 창의적이고 예상치 못한, 하지만 프롬프트와는 다소 거리가 있는 이미지가 나올 수 있습니다. 예를 들어, 고양이가 우주복 대신 평범한 옷을 입고 있거나, 배경이 은하수가 아닌 다른 풍경일 수 있습니다.
- w 값이 높으면 (예: 7.5): 프롬프트의 모든 요소가 매우 명확하게 표현된 이미지가 나올 가능성이 큽니다. 은하수를 배경으로 우주복을 입은 고양이의 모습이 뚜렷하게 나타나지만, 때로는 이미지의 자연스러움이나 다양성이 다소 떨어질 수 있습니다.
비유: 자동차 네비게이션에 비유할 수 있습니다. 비조건부 예측은 "어디든 자유롭게 가세요"라는 상태이고, 조건부 예측은 "서울 시청으로 가세요"라는 명확한 목적지가 있는 상태입니다. CFG는 이 두 가지를 조합하는데, 가이던스 스케일(w)은 "목적지 우선"으로 얼마나 강하게 설정할지를 정하는 옵션과 같습니다. w가 높을수록 최단 경로로 목적지에 도달하려 하지만(프롬프트 충실도 증가), 주변의 아름다운 경치(다양성, 창의성)를 놓칠 수 있는 것과 비슷합니다.
실제 사용에서의 가이던스 스케일 조절
대부분의 이미지 생성 AI 도구에서 사용자들이 경험하는 가이던스 스케일 값들을 살펴보면 아래와 같습니다.
| 가이던스 스케일 값 | 효과 | 실제 결과 |
| 1.0 ~ 3.0 | 매우 자유로운 생성 | 프롬프트와 다소 다를 수 있지만 창의적이고 자연스러운 이미지 |
| 5.0 ~ 7.5 | 균형잡힌 생성 | 프롬프트를 잘 따르면서도 적당한 다양성 유지 (가장 많이 사용) |
| 10.0 ~ 15.0 | 프롬프트 충실 | 프롬프트의 모든 요소가 명확하나 때로 과포화되거나 부자연스러울 수 있음 |
| 20.0 이상 | 극도로 강한 제약 | 거의 모든 세부사항이 프롬프트에 맞지만 이미지 품질 저하 가능 |
클래시파이어-프리 가이던스는 조건부 이미지 생성 분야에 여러 중요한 이점을 가져왔습니다.
시스템 간소화의 혁신
가장 큰 장점은 추가적인 분류기 모델을 훈련하고 관리할 필요가 없다는 것입니다. 이는 모델 개발 과정을 단순화하고, 계산 비용을 절감하며, 전체 시스템의 효율성을 높입니다. 개발자 입장에서는 하나의 모델만 관리하면 되므로 유지보수 부담이 크게 줄어들고, 사용자 입장에서는 더 빠른 이미지 생성이 가능해집니다.
직관적인 제어 시스템
사용자는 가이던스 스케일(w)이라는 단일 매개변수를 조절하여 생성되는 이미지의 충실도(프롬프트 반영 정도)와 다양성 사이의 균형을 쉽게 맞출 수 있습니다. 이는 마치 사진 편집 프로그램에서 '선명도'나 '채도'를 조절하듯 직관적인 제어를 가능하게 합니다.
성능 향상과 효율성
CFG는 FID(Frechet Inception Distance, 낮을수록 좋음)나 IS(Inception Score, 높을수록 좋음)와 같은 이미지 품질 평가 지표에서 기존 클래시파이어 가이던스 방식과 비슷하거나 더 나은 성능을 보여주면서도, 더 적은 모델 용량으로 이를 달성합니다.
폭넓은 응용 가능성
CFG는 텍스트-이미지 생성뿐만 아니라, 순수 언어 모델링과 같은 다른 조건부 생성 작업에도 성공적으로 적용될 수 있음이 연구를 통해 밝혀졌습니다. 이는 CFG의 원리가 이미지 생성을 넘어 더 넓은 AI 분야에서 활용될 수 있음을 의미합니다. 이러한 장점 덕분에 CFG는 Stable Diffusion, DALL-E, Midjourney와 같은 최첨단 텍스트-이미지 생성 모델의 핵심 구성 요소로 자리매김했습니다.
실제 활용 사례와 팁
현실에서 CFG를 효과적으로 활용하기 위한 몇 가지 실용적인 팁을 공유합니다.
창작 목적별 가이던스 스케일 설정
- 아트워크 창작: 7.5 ~ 10.0 (창의성과 프롬프트 충실도의 균형)
- 제품 디자인: 10.0 ~ 15.0 (명확한 요구사항 반영 우선)
- 컨셉 아트: 5.0 ~ 7.5 (다양한 아이디어 탐색)
- 실험적 창작: 1.0 ~ 5.0 (예상치 못한 결과물 탐색)
프롬프트 복잡도에 따른 조절
- 간단한 프롬프트 ("빨간 사과"): 낮은 가이던스 스케일로도 충분
- 복잡한 프롬프트 ("중세 성에서 마법서를 읽는 용"): 높은 가이던스 스케일 필요
마무리하며
클래시파이어-프리 가이던스는 AI가 사용자의 의도를 단순히 따르는 것을 넘어, 그 의도를 더욱 깊이 이해하고 섬세하게 표현할 수 있도록 하는 중요한 열쇠입니다. 별도의 '감시자' 없이 모델 스스로가 조건의 중요성을 판단하고 창의성을 발휘할 수 있게 함으로써, 다채로운 AI 생성 콘텐츠를 생성하게 되었습니다. CFG는 마치 잘 훈련된 오케스트라 지휘자와 같습니다. 지휘자는 각 악기(모델의 각 부분)가 내야 할 소리(조건부 예측)와 전체적인 조화(비조건부 예측의 다양성)를 모두 고려하여, 연주자(모델)에게 얼마나 강하게 특정 부분(가이던스 스케일)을 강조해야 할지 지시합니다. 그 결과, 때로는 장엄하고 명확한 멜로디를, 때로는 부드럽고 풍부한 화음을 만들어내며 청중(사용자)에게 깊은 감동을 선사합니다.
https://arxiv.org/abs/2207.12598
Classifier-Free Diffusion Guidance
Classifier guidance is a recently introduced method to trade off mode coverage and sample fidelity in conditional diffusion models post training, in the same spirit as low temperature sampling or truncation in other types of generative models. Classifier g
arxiv.org
https://arxiv.org/abs/2105.05233
Diffusion Models Beat GANs on Image Synthesis
We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional imag
arxiv.org
'Theory > Image Generation-Diffusion' 카테고리의 다른 글
| AI 이미지 생성, 나만의 스타일을 입히다: 파인튜닝 기법 완전 정복 가이드 (0) | 2025.05.27 |
|---|---|
| ControlNet: 내 손안의 AI 아티스트, 상상하는 대로 이미지를 조종하다 (0) | 2025.05.23 |
| 확산 모델 샘플링 전략: 속도와 품질의 완벽한 균형을 찾아서 (0) | 2025.05.23 |
| 확산 트랜스포머(DiT): U-Net을 넘어선 이미지 생성 모델의 새로운 지평 (0) | 2025.05.22 |
| 노이즈에서 명작으로: 확산 모델과 잠재 확산 모델(Latent Diffusion Models, LDM) 파헤치기 (0) | 2025.05.21 |