| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- extended thinking
- Positional Encoding
- MQA
- PEFT
- test-time scaling
- CoT
- rotary position embedding
- 토크나이저
- Langchain
- fréchet inception distance
- transformer
- 트랜스포머
- context engineering
- reinforcement learning from human feedback
- model context protocol
- gqa
- flashattention
- Engineering at Anthropic
- attention
- RLHF
- SK AI SUMMIT 2025
- BLEU
- re-ranking
- MHA
- chain-of-thought
- self-attention
- Multi-Head Attention
- catastrophic forgetting
- Embedding
- langgraph
Archives
- Today
- Total
목록deepspeed (1)
AI Engineer 공간 "사부작 사부작"
파운데이션 모델 훈련의 혁신: 병렬 처리로 한계를 넘어서다인공지능(AI) 분야, 특히 자연어 처리(NLP)와 컴퓨터 비전 영역에서 파운데이션 모델의 등장은 가히 혁명적이었습니다. GPT, BERT와 같은 거대 언어 모델(LLM)부터 시작해 이미지 생성 모델에 이르기까지, 이들 모델은 이전에는 상상하기 어려웠던 수준의 성능을 보여주며 다양한 산업에 큰 영향을 미치고 있습니다. 하지만 이러한 강력한 성능 뒤에는 엄청난 규모의 모델 크기와 방대한 학습 데이터라는 과제가 숨어있습니다. "4개의 GPU로 분산 훈련을 시행하면, 1개의 GPU로 훈련하는 것보다 4배로 성능이 빨라질까?"라는 질문에 대한 답은 놀랍게도 "그렇다"입니다. 실제 테스트 결과 GPU 증가에 따라 이미지 분류의 경우 선형적으로 초당 이미지 ..
Theory/FoundationModel Engineering
2025. 5. 28. 08:15