| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- flashattention
- model context protocol
- Embedding
- MQA
- gqa
- SK AI SUMMIT 2025
- Multi-Head Attention
- re-ranking
- Positional Encoding
- context engineering
- catastrophic forgetting
- CoT
- chain-of-thought
- attention
- langgraph
- extended thinking
- Engineering at Anthropic
- test-time scaling
- 토크나이저
- transformer
- RLHF
- rotary position embedding
- fréchet inception distance
- PEFT
- Langchain
- BLEU
- MHA
- 트랜스포머
- self-attention
- reinforcement learning from human feedback
Archives
- Today
- Total
목록gaming (1)
AI Engineer 공간 "사부작 사부작"
벤치마크 게임화(Benchmark Gaming): AI 모델 평가의 그림자와 진실
생성 모델 벤치마크의 그림자: 알려진 한계와 '게임화' 문제 파헤치기생성 모델 연구가 눈부시게 발전하면서, 모델의 성능을 측정하고 서로 비교하는 기준점의 중요성은 더욱 커지고 있습니다. 바로 '벤치마크'가 그 역할을 수행하며, 연구 개발의 나침반이 되어줍니다. 하지만 이 편리한 도구 이면에는 우리가 반드시 인지해야 할 몇 가지 잘 알려진 한계점과 문제들이 도사리고 있습니다. 때로는 이러한 문제들이 '게임화(Gaming)'이라는 현상으로 이어져, 벤치마크 점수가 모델의 실제 능력을 제대로 반영하지 못하는 상황을 만들기도 합니다. 이번 글에서는 생성 모델 벤치마크가 가진 주요 한계점들을 살펴보고, 이것이 왜 중요한 문제인지 자세히 알아보겠습니다.벤치마크의 주요 한계점과 '게임화' 문제벤치마크는 분명 유용한 ..
Theory/Evaluation-Benchmarking
2025. 6. 4. 23:24