| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- reinforcement learning from human feedback
- Multi-Head Attention
- fréchet inception distance
- re-ranking
- chain-of-thought
- CoT
- rotary position embedding
- 토크나이저
- transformer
- MQA
- BLEU
- flashattention
- MHA
- model context protocol
- catastrophic forgetting
- context engineering
- PEFT
- extended thinking
- SK AI SUMMIT 2025
- langgraph
- 트랜스포머
- self-attention
- gqa
- test-time scaling
- Embedding
- Engineering at Anthropic
- RLHF
- Positional Encoding
- attention
- Langchain
Archives
- Today
- Total
목록KAPLAN (1)
AI Engineer 공간 "사부작 사부작"
스케일링 법칙(Scaling Laws)
스케일링 법칙(Scaling Laws): AI 성장의 수학적 공식, Kaplan에서 Chinchilla까지인공지능 분야에서는 수십억 달러의 컴퓨팅 자원이 투입되는 대규모 언어 모델(LLM)을 개발할 때, 주어진 자원을 어떻게 배분해야 최상의 성능을 얻을 수 있을까요? 더 큰 모델을 만들어야 할까요, 아니면 더 많은 데이터로 훈련해야 할까요? 이러한 질문에 경험적 근거를 제공하는 것이 바로 '스케일링 법칙(Scaling Laws)'입니다. 스케일링 법칙은 AI 모델의 성능이 모델 크기, 데이터 양, 계산 자원과 같은 요소에 따라 어떻게 변화하는지를 수학적으로 설명하는 관계식으로, 효율적인 AI 개발의 나침반 역할을 합니다.스케일링 법칙: AI 성능 예측의 지도스케일링 법칙은 언어 모델의 성능(주로 손실 값..
Theory/LLM Architectures
2025. 5. 17. 12:40