일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- clip
- pad masking
- RLHF
- chain-of-thought
- attention
- look-ahead masking
- skip link
- catastrophic forgetting
- Rag
- gqa
- flashattention
- Lora
- PEFT
- Rope
- CoT
- reinforcement learning from human feedback
- LLM
- MQA
- 트랜스포머
- MHA
- FID
- self-attention
- fréchet inception distance
- re-ranking
- rotary position embedding
- Positional Encoding
- Multi-Head Attention
- benchmark
- BLEU
- transformer
- Today
- Total
목록fréchet inception distance (2)
AI Engineer의 '사부작' 공간
텍스트-이미지 모델, 얼마나 잘 그리고 있을까? CLIP, FID, 다양성으로 평가하기마법처럼 텍스트만 입력하면 뚝딱 이미지를 만들어내는 텍스트-이미지 모델! "푸른 초원에서 책을 읽는 고양이"라고 말하면 상상 속 장면이 눈앞에 펼쳐지니, 정말 놀라운 기술이죠. 하지만 이 모델들이 얼마나 '잘' 그리고 있는지, 우리가 원하는 바를 정확히 표현해 내는지는 어떻게 알 수 있을까요? 마치 화가의 그림을 감상하듯, 모델이 생성한 이미지도 다양한 기준으로 평가받습니다. 이 글에서는 텍스트-이미지 모델의 성능을 평가하는 주요 잣대인 프롬프트 정렬(CLIP 점수), 이미지 품질/사실성(FID), 그리고 다양성에 대해 쉽고 자세하게 알아보겠습니다.프롬프트 정렬 및 충실성: CLIP 점수 – "내 말을 얼마나 잘 알아들..
생성 AI 평가의 딜레마: 자동화 지표 vs 인간 평가, 무엇이 더 정확할까?인공지능(AI)이 만들어내는 글과 그림, 음악은 날이 갈수록 정교해지고 있습니다. SF 영화에서나 보던 일들이 현실이 되는 것을 보며 감탄하면서도, 한편으로는 이런 질문이 떠오릅니다. "이 AI가 얼마나 잘 만들었는지는 어떻게 알 수 있을까?" 마치 미슐랭 스타 셰프가 새로운 요리를 선보였을 때, 그 맛과 창의성을 평가하는 것처럼 생성 모델의 결과물을 평가하는 것은 생각보다 복잡하고 어려운 문제입니다. 정해진 답이 있는 시험 문제와는 달리, 생성 모델의 평가는 다각적이고 때로는 주관적인 판단이 필요하기 때문입니다. 이번 글에서는 생성 모델 평가가 왜 까다로운지, 그리고 현재 주로 사용되는 평가 방법인 '자동화된 지표'와 '인간 ..