| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- rotary position embedding
- chain-of-thought
- Multi-Head Attention
- PEFT
- MQA
- flashattention
- langgraph
- CoT
- 트랜스포머
- RLHF
- test-time scaling
- Embedding
- catastrophic forgetting
- re-ranking
- model context protocol
- BLEU
- self-attention
- Positional Encoding
- 토크나이저
- gqa
- context engineering
- Langchain
- fréchet inception distance
- attention
- Engineering at Anthropic
- MHA
- extended thinking
- SK AI SUMMIT 2025
- reinforcement learning from human feedback
- transformer
Archives
- Today
- Total
목록onnx (1)
AI Engineer 공간 "사부작 사부작"
AI 모델 배포: ONNX와 TensorRT로 날개를 달다
AI 모델 배포, ONNX와 TensorRT로 날개를 달다공들여 개발한 인공지능 모델, 이제 실제 서비스라는 무대에 오를 시간입니다. 하지만 훈련된 모델을 실제 서비스 환경에 성공적으로 배포하고 사용자에게 최상의 경험을 제공하기까지는 '최적화'라는 중요한 과정이 남아있습니다. 아무리 뛰어난 모델이라도 실제 환경에서 느리게 작동하거나 과도한 자원을 소모한다면 그 가치는 퇴색될 수밖에 없습니다. 마치 최고의 레시피로 만든 요리라도, 실제 손님에게 제공되기까지 시간이 너무 오래 걸린다면 만족도가 떨어지는 것과 같죠. 이러한 문제를 해결하고, 우리 모델이 실제 환경에서 빠르고 효율적으로 추론(inference)을 수행하도록 돕는 두 가지 강력한 도구가 바로 ONNX(Open Neural Network Excha..
Theory/FoundationModel Engineering
2025. 6. 3. 21:01