| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- attention
- self-attention
- Engineering at Anthropic
- MQA
- MHA
- 트랜스포머
- Langchain
- model context protocol
- CoT
- Multi-Head Attention
- rotary position embedding
- catastrophic forgetting
- fréchet inception distance
- test-time scaling
- PEFT
- extended thinking
- RLHF
- flashattention
- chain-of-thought
- Positional Encoding
- context engineering
- 토크나이저
- reinforcement learning from human feedback
- re-ranking
- BLEU
- transformer
- langgraph
- gqa
- SK AI SUMMIT 2025
- Embedding
Archives
- Today
- Total
목록big-bench (1)
AI Engineer 공간 "사부작 사부작"
LLM 추론 능력 평가: 인공지능 사고력의 현재와 미래를 가늠하는 주요 벤치마크
LLM 추론 능력, 어떻게 평가하고 어떤 기준으로 판단할까? 주요 벤치마크 완전 정복인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 눈부신 발전은 이제 우리 일상 깊숙이 들어와 있습니다. 단순히 정보를 검색하고 요약하는 것을 넘어, LLM이 마치 인간처럼 생각하고 문제를 해결하는 능력, 즉 '추론 능력'을 선보이기 시작했습니다. 하지만 이러한 추론 능력을 어떻게 객관적으로 평가하고, 어떤 기준으로 그 수준을 가늠할 수 있을까요? 이 글에서는 LLM의 추론 능력이란 무엇이며, 이를 평가하는 주요 벤치마크에는 어떤 것들이 있는지 쉽고 자세하게 살펴보겠습니다.LLM의 추론 능력이란 무엇일까요?LLM의 추론 능력이란, 단순히 저장된 정보를 꺼내는 것을 넘어, 주어진 정보를 바탕으로 논리적인 단계를 거쳐..
Theory/Evaluation-Benchmarking
2025. 6. 4. 22:40