| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- MQA
- flashattention
- chain-of-thought
- extended thinking
- self-attention
- re-ranking
- PEFT
- fréchet inception distance
- transformer
- BLEU
- Langchain
- attention
- Multi-Head Attention
- reinforcement learning from human feedback
- RLHF
- catastrophic forgetting
- test-time scaling
- 트랜스포머
- context engineering
- MHA
- rotary position embedding
- Engineering at Anthropic
- 토크나이저
- Embedding
- SK AI SUMMIT 2025
- langgraph
- CoT
- gqa
- Positional Encoding
- model context protocol
- Today
- Total
AI Engineer 공간 "사부작 사부작"
텍스트-이미지 생성 모델 평가의 삼각축: CLIP 점수, FID, 다양성으로 완성하는 AI 화가의 실력 측정법 본문
텍스트-이미지 생성 모델 평가의 삼각축: CLIP 점수, FID, 다양성으로 완성하는 AI 화가의 실력 측정법
ChoYongHo 2025. 6. 4. 22:53텍스트-이미지 모델, 얼마나 잘 그리고 있을까? CLIP, FID, 다양성으로 평가하기
마법처럼 텍스트만 입력하면 뚝딱 이미지를 만들어내는 텍스트-이미지 모델! "푸른 초원에서 책을 읽는 고양이"라고 말하면 상상 속 장면이 눈앞에 펼쳐지니, 정말 놀라운 기술이죠. 하지만 이 모델들이 얼마나 '잘' 그리고 있는지, 우리가 원하는 바를 정확히 표현해 내는지는 어떻게 알 수 있을까요? 마치 화가의 그림을 감상하듯, 모델이 생성한 이미지도 다양한 기준으로 평가받습니다. 이 글에서는 텍스트-이미지 모델의 성능을 평가하는 주요 잣대인 프롬프트 정렬(CLIP 점수), 이미지 품질/사실성(FID), 그리고 다양성에 대해 쉽고 자세하게 알아보겠습니다.
프롬프트 정렬 및 충실성: CLIP 점수 – "내 말을 얼마나 잘 알아들었니?"
모델이 우리가 입력한 텍스트 설명(프롬프트)의 의미를 얼마나 정확하게 이미지로 옮겼는지를 평가하는 것이 바로 '프롬프트 정렬'입니다. 이때 핵심적인 평가 지표로 CLIP 점수가 활용됩니다.
- 개념: CLIP(Contrastive Language-Image Pre-training)은 텍스트와 이미지를 함께 학습하여, 서로 다른 두 종류의 데이터(텍스트와 이미지)가 같은 의미를 가지는지 판단할 수 있는 모델입니다. 생성된 이미지와 입력된 텍스트 프롬프트를 각각 CLIP 모델에 넣어 서로 얼마나 의미적으로 유사한지 계산하는 것이죠. 이 점수가 높을수록 이미지가 프롬프트의 내용을 충실하게 반영했다고 봅니다. 즉, 모델이 텍스트의 지시사항을 얼마나 잘 이해하고 이미지에 표현했는지를 나타냅니다.
- 예시: 만약 "별이 빛나는 밤에 캠핑하는 우주비행사"라는 프롬프트를 입력했다고 가정해 봅시다. 생성된 이미지에 밤하늘, 별, 캠핑 장비, 그리고 우주복을 입은 사람이 명확하게 표현되어 있다면 CLIP 점수는 높게 나올 것입니다. 하지만 우주비행사가 빠졌거나, 낮 시간의 캠핑 장면이 나온다면 점수는 낮아지겠죠.
- 비유: CLIP 점수는 마치 외국어를 번역하는 번역기의 성능을 평가하는 것과 비슷합니다. 우리가 한국어로 "사과"라고 말했을 때, 번역기가 영어로 "Apple"이라고 정확히 번역했는지를 확인하는 것처럼, CLIP은 텍스트 설명이라는 '언어'와 이미지라는 '그림 언어' 사이의 의미적 일치도를 측정하는 심사위원이라고 할 수 있습니다. 심사위원이 "음, 이 그림은 설명과 거의 일치하는군!" 하고 높은 점수를 주는 것과 같습니다.
이미지 품질 및 사실성: FID – "얼마나 진짜 같고 보기 좋으니?"
생성된 이미지가 단순히 설명을 따르는 것을 넘어, 시각적으로 얼마나 자연스럽고 실제 사진처럼 보이는지, 기술적인 결함은 없는지를 평가하는 것이 '이미지 품질 및 사실성'입니다. 이때 표준적으로 사용되는 지표가 바로 FID(Fréchet Inception Distance)입니다.
- 개념: FID는 사전 훈련된 Inception이라는 이미지 인식 모델을 사용하여, 생성된 이미지들의 특징 분포와 실제 이미지들의 특징 분포 간의 거리를 측정합니다. 이 거리가 가까울수록(즉, FID 점수가 낮을수록) 생성된 이미지들이 실제 이미지와 통계적으로 유사하며, 이는 더 높은 품질과 사실성을 의미하는 경향이 있습니다. 이미지의 선명도, 질감, 색감 등이 실제와 얼마나 가까운지를 평가하는 것입니다.
- 예시: "아기 고양이의 클로즈업 사진"이라는 프롬프트에 대해 어떤 모델은 털 한 올 한 올이 살아있는 듯 선명하고 자연스러운 이미지를 생성하는 반면, 다른 모델은 어딘가 흐릿하거나 부자연스러운 윤곽, 어색한 눈동자를 가진 이미지를 만들 수 있습니다. 전자의 경우 FID 점수가 낮게(좋게) 나올 것이고, 후자는 높게(나쁘게) 나올 것입니다.
- 비유: FID는 미술관의 큐레이터와 같습니다. 이 큐레이터는 수많은 실제 사진 작품들을 감상하며 '진짜 사진다움'에 대한 높은 기준을 가지고 있습니다. 새로운 이미지가 들어왔을 때, 이 큐레이터는 이미지가 기존의 진짜 사진들과 얼마나 비슷한 느낌을 주는지, 혹시 어색하거나 위조된 부분은 없는지를 꼼꼼히 살피는 것이죠. FID 점수가 낮다는 것은 큐레이터가 "이건 진짜 사진이라고 해도 믿겠는데?"라며 만족했다는 의미와 같습니다.
다양성: "얼마나 다채로운 그림을 그릴 수 있니?"
하나의 프롬프트에 대해 모델이 얼마나 다양하고 서로 다른 이미지를 만들어낼 수 있는지도 중요한 평가 기준입니다. 매번 똑같거나 비슷한 그림만 그린다면 좋은 모델이라고 할 수 없겠죠.
- 개념: 다양성은 모델이 동일하거나 유사한 프롬프트에 대해 창의적이고 폭넓은 결과물을 생성하는 능력을 의미합니다. 다양성이 부족하면 모델이 특정 스타일이나 형태의 이미지 만을 반복적으로 생성하는 '모드 붕괴(mode collapse)' 현상을 겪고 있을 수 있습니다. 이는 모델이 학습 데이터의 일부 특징에만 과도하게 집중하여 다양한 표현을 배우지 못한 경우에 발생할 수 있습니다.
- 예시: "숲 속의 작은 오두막"이라는 프롬프트에 대해, 다양성이 높은 모델은 여름 숲, 겨울 숲, 안개 낀 숲 등 다양한 배경과 계절에, 통나무집, 돌집, 현대식 작은 집 등 각기 다른 스타일의 오두막을 그려낼 것입니다. 반면 다양성이 낮은 모델은 매번 비슷한 구도에 비슷한 모양의 갈색 오두막만 보여줄 수 있습니다.
- 비유: 다양성은 마치 한 가지 주제 ("자유")를 주고 여러 시인에게 시를 써보라고 하는 것과 같습니다. 뛰어난 시인들은 각자의 개성과 경험을 담아 사랑, 평화, 저항 등 '자유'에 대한 다채로운 해석과 표현을 담은 시를 선보일 것입니다. 이처럼 모델도 하나의 프롬프트에 대해 얼마나 풍부하고 각기 다른 시각적 이야기를 펼쳐낼 수 있는지를 보는 것이 다양성 평가입니다.
마무리하며
텍스트-이미지 모델의 성능을 제대로 파악하기 위해서는 이처럼 프롬프트 정렬(CLIP 점수), 이미지 품질 및 사실성(FID), 그리고 다양성이라는 세 가지 핵심 요소를 종합적으로 살펴보아야 합니다. CLIP 점수가 높아 텍스트를 잘 이해하고, FID 점수가 낮아 실제처럼 보이며, 동시에 다양한 결과물을 만들어낼 수 있는 모델이 우리가 원하는 '그림 잘 그리는 AI'에 가깝다고 할 수 있을 것입니다. 물론 이러한 자동화된 지표 외에도, 생성된 이미지의 미적인 아름다움이나 프롬프트의 미묘한 감정까지 표현했는지 등은 여전히 사람의 주관적인 평가가 중요합니다. 기술이 발전함에 따라 이러한 평가 방법들도 더욱 정교해지겠지만, 오늘 살펴본 세 가지 기준은 현재 텍스트-이미지 모델을 이해하고 발전시키는 데 든든한 길잡이가 되어주고 있습니다.
https://arxiv.org/abs/2104.08718
CLIPScore: A Reference-free Evaluation Metric for Image Captioning
Image captioning has conventionally relied on reference-based automatic evaluations, where machine captions are compared against captions written by humans. This is in contrast to the reference-free manner in which humans assess caption quality. In this pa
arxiv.org
'Theory > Evaluation-Benchmarking' 카테고리의 다른 글
| 트랜스포머 해석 가능성 기법: AI 모델의 의사결정 과정을 투명하게 들여다보는 고급 분석 방법론 (0) | 2025.06.04 |
|---|---|
| 벤치마크 게임화(Benchmark Gaming): AI 모델 평가의 그림자와 진실 (0) | 2025.06.04 |
| LLM 추론 능력 평가: 인공지능 사고력의 현재와 미래를 가늠하는 주요 벤치마크 (0) | 2025.06.04 |
| LLM의 진실성, 어떻게 체계적으로 검증할까? TruthfulQA와 다양한 평가 방법들 (0) | 2025.06.02 |
| 생성 모델 평가, 왜 어렵고 어떻게 해야 할까요?: 자동화 지표와 인간 평가 샅샅이 파헤치기 (0) | 2025.06.02 |