| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- flashattention
- MQA
- Multi-Head Attention
- chain-of-thought
- MHA
- catastrophic forgetting
- test-time scaling
- context engineering
- Embedding
- Engineering at Anthropic
- gqa
- re-ranking
- PEFT
- 토크나이저
- attention
- BLEU
- reinforcement learning from human feedback
- CoT
- self-attention
- langgraph
- transformer
- RLHF
- Positional Encoding
- Langchain
- SK AI SUMMIT 2025
- rotary position embedding
- fréchet inception distance
- 트랜스포머
- extended thinking
- model context protocol
Archives
- Today
- Total
목록bond (1)
AI Engineer 공간 "사부작 사부작"
Best-of-N (BoN): 가장 좋은 하나를 고르는 단순함의 힘, LLM 성능 극대화의 비밀
Best-of-N (BoN): 가장 좋은 하나를 고르는 단순함의 힘, LLM 성능 극대화의 비밀인공지능 언어 모델(LLM)의 발전은 눈부십니다. 단순히 문장을 생성하는 것을 넘어, 이제는 인간의 복잡한 의도를 파악하고 유용하며, 진실하고, 무해한 답변을 제공하는 방향으로 나아가고 있죠. 이러한 '정렬(Alignment)' 기술의 중심에는 인간의 피드백을 활용한 강화학습, RLHF(Reinforcement Learning from Human Feedback)가 있습니다. 하지만 이 복잡하고 정교한 방법론이 대중화되기 전, 매우 간단하면서도 강력한 아이디어가 그 가능성을 입증하며 중요한 이정표를 세웠습니다. 바로 Best-of-N (BoN) 입니다. Best-of-N은 마치 뛰어난 예술가가 여러 습작을 그린..
Theory/Agents
2025. 6. 27. 18:46