| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- Engineering at Anthropic
- extended thinking
- transformer
- 토크나이저
- test-time scaling
- rotary position embedding
- PEFT
- Multi-Head Attention
- RLHF
- reinforcement learning from human feedback
- MQA
- MHA
- attention
- context engineering
- fréchet inception distance
- BLEU
- Langchain
- SK AI SUMMIT 2025
- re-ranking
- chain-of-thought
- Positional Encoding
- catastrophic forgetting
- CoT
- langgraph
- gqa
- self-attention
- model context protocol
- 트랜스포머
- Embedding
- flashattention
Archives
- Today
- Total
목록rouge (1)
AI Engineer 공간 "사부작 사부작"
생성 모델 평가, 왜 어렵고 어떻게 해야 할까요?: 자동화 지표와 인간 평가 샅샅이 파헤치기
생성 AI 평가의 딜레마: 자동화 지표 vs 인간 평가, 무엇이 더 정확할까?인공지능(AI)이 만들어내는 글과 그림, 음악은 날이 갈수록 정교해지고 있습니다. SF 영화에서나 보던 일들이 현실이 되는 것을 보며 감탄하면서도, 한편으로는 이런 질문이 떠오릅니다. "이 AI가 얼마나 잘 만들었는지는 어떻게 알 수 있을까?" 마치 미슐랭 스타 셰프가 새로운 요리를 선보였을 때, 그 맛과 창의성을 평가하는 것처럼 생성 모델의 결과물을 평가하는 것은 생각보다 복잡하고 어려운 문제입니다. 정해진 답이 있는 시험 문제와는 달리, 생성 모델의 평가는 다각적이고 때로는 주관적인 판단이 필요하기 때문입니다. 이번 글에서는 생성 모델 평가가 왜 까다로운지, 그리고 현재 주로 사용되는 평가 방법인 '자동화된 지표'와 '인간 ..
Theory/Evaluation-Benchmarking
2025. 6. 2. 08:04