| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- fréchet inception distance
- MHA
- gqa
- catastrophic forgetting
- model context protocol
- context engineering
- transformer
- self-attention
- flashattention
- extended thinking
- test-time scaling
- Embedding
- chain-of-thought
- MQA
- BLEU
- Multi-Head Attention
- 토크나이저
- SK AI SUMMIT 2025
- Engineering at Anthropic
- Langchain
- CoT
- 트랜스포머
- langgraph
- Positional Encoding
- attention
- RLHF
- re-ranking
- PEFT
- reinforcement learning from human feedback
- rotary position embedding
Archives
- Today
- Total
목록bf16 (1)
AI Engineer 공간 "사부작 사부작"
모델 경량화의 핵심, 양자화: PTQ, QAT 심층 분석과 GPTQ/AWQ 최신 동향대규모 언어 모델(LLM)은 놀라운 가능성을 제시하지만, 그 거대한 크기와 막대한 연산량은 실제 서비스 환경에 부담을 줍니다. 마치 최첨단 기술이 집약된 거대한 엔진을 소형차에 탑재하려는 도전과 같습니다. 이 문제를 해결하는 핵심 기술 중 하나가 바로 양자화(Quantization)입니다. 양자화는 모델이 정보를 표현하고 계산하는 데 사용하는 숫자의 정밀도(비트 수)를 낮추는 기법입니다. 일반적으로 사용되는 32비트 부동소수점(FP32) 대신, 16비트 부동소수점(FP16, BF16)이나 8비트 정수(INT8) 등으로 변환하여 모델을 더 가볍고 빠르게 만듭니다. 고해상도 원본 이미지를 품질 손실은 최소화하면서 웹용으로 압..
Theory/FoundationModel Engineering
2025. 5. 28. 21:37