| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- transformer
- Langchain
- re-ranking
- Positional Encoding
- CoT
- chain-of-thought
- fréchet inception distance
- gqa
- attention
- MHA
- extended thinking
- reinforcement learning from human feedback
- flashattention
- Engineering at Anthropic
- 트랜스포머
- Multi-Head Attention
- RLHF
- MQA
- self-attention
- langgraph
- BLEU
- 토크나이저
- Embedding
- PEFT
- model context protocol
- test-time scaling
- rotary position embedding
- catastrophic forgetting
- SK AI SUMMIT 2025
- context engineering
Archives
- Today
- Total
목록hellaswag (1)
AI Engineer 공간 "사부작 사부작"
LLM 추론 능력 평가: 인공지능 사고력의 현재와 미래를 가늠하는 주요 벤치마크
LLM 추론 능력, 어떻게 평가하고 어떤 기준으로 판단할까? 주요 벤치마크 완전 정복인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 눈부신 발전은 이제 우리 일상 깊숙이 들어와 있습니다. 단순히 정보를 검색하고 요약하는 것을 넘어, LLM이 마치 인간처럼 생각하고 문제를 해결하는 능력, 즉 '추론 능력'을 선보이기 시작했습니다. 하지만 이러한 추론 능력을 어떻게 객관적으로 평가하고, 어떤 기준으로 그 수준을 가늠할 수 있을까요? 이 글에서는 LLM의 추론 능력이란 무엇이며, 이를 평가하는 주요 벤치마크에는 어떤 것들이 있는지 쉽고 자세하게 살펴보겠습니다.LLM의 추론 능력이란 무엇일까요?LLM의 추론 능력이란, 단순히 저장된 정보를 꺼내는 것을 넘어, 주어진 정보를 바탕으로 논리적인 단계를 거쳐..
Theory/Evaluation-Benchmarking
2025. 6. 4. 22:40