| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- test-time scaling
- Positional Encoding
- catastrophic forgetting
- Engineering at Anthropic
- BLEU
- CoT
- RLHF
- reinforcement learning from human feedback
- context engineering
- attention
- MQA
- PEFT
- rotary position embedding
- fréchet inception distance
- re-ranking
- flashattention
- Multi-Head Attention
- extended thinking
- gqa
- MHA
- model context protocol
- langgraph
- self-attention
- transformer
- chain-of-thought
- 토크나이저
- SK AI SUMMIT 2025
- 트랜스포머
- Langchain
- Embedding
- Today
- Total
목록BLEU (2)
AI Engineer 공간 "사부작 사부작"
멀티모달 모델 평가의 복잡성: 여러 감각을 통합하는 AI의 진정한 실력 측정하기현대 인공지능의 발전은 마치 인간의 감각 기관이 진화하는 과정과 닮아 있습니다. 과거 AI가 단일한 감각, 즉 텍스트나 이미지 중 하나만을 처리했다면, 이제는 인간처럼 시각, 청각, 언어를 동시에 이해하고 통합하는 멀티모달 AI의 시대가 열렸습니다. 하지만 이러한 복합적 능력을 가진 AI를 평가하는 것은 마치 오케스트라의 연주를 평가하는 것처럼 복잡하고 정교한 과정을 요구합니다. 각 악기의 개별 연주 실력뿐만 아니라 전체적인 조화와 협연 능력까지 종합적으로 판단해야 하기 때문입니다. 멀티모달 모델 평가는 단순히 정답률을 측정하는 것을 넘어서, 모델이 서로 다른 유형의 정보를 얼마나 효과적으로 통합하고 추론할 수 있는지를 종합적..
생성 AI 평가의 딜레마: 자동화 지표 vs 인간 평가, 무엇이 더 정확할까?인공지능(AI)이 만들어내는 글과 그림, 음악은 날이 갈수록 정교해지고 있습니다. SF 영화에서나 보던 일들이 현실이 되는 것을 보며 감탄하면서도, 한편으로는 이런 질문이 떠오릅니다. "이 AI가 얼마나 잘 만들었는지는 어떻게 알 수 있을까?" 마치 미슐랭 스타 셰프가 새로운 요리를 선보였을 때, 그 맛과 창의성을 평가하는 것처럼 생성 모델의 결과물을 평가하는 것은 생각보다 복잡하고 어려운 문제입니다. 정해진 답이 있는 시험 문제와는 달리, 생성 모델의 평가는 다각적이고 때로는 주관적인 판단이 필요하기 때문입니다. 이번 글에서는 생성 모델 평가가 왜 까다로운지, 그리고 현재 주로 사용되는 평가 방법인 '자동화된 지표'와 '인간 ..