| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- 토크나이저
- BLEU
- reinforcement learning from human feedback
- catastrophic forgetting
- extended thinking
- gqa
- Multi-Head Attention
- SK AI SUMMIT 2025
- context engineering
- langgraph
- transformer
- Engineering at Anthropic
- chain-of-thought
- CoT
- PEFT
- attention
- Embedding
- flashattention
- MHA
- model context protocol
- re-ranking
- Langchain
- fréchet inception distance
- test-time scaling
- rotary position embedding
- self-attention
- 트랜스포머
- RLHF
- MQA
- Positional Encoding
Archives
- Today
- Total
목록flamingo (1)
AI Engineer 공간 "사부작 사부작"
멀티모달의 심장, 텍스트-이미지 융합: CLIP, Flamingo, LLaVA 심층 해부인공지능(AI) 분야에서 멀티모달 시스템은 인간과 유사한 정보 이해를 목표로 하며, 시각 정보(이미지)와 언어 정보(텍스트)의 정교한 융합은 AI가 세상을 다면적으로 인식하는 데 핵심입니다. 멀티모달 AI 모델인 CLIP, Flamingo, LLaVA가 어떻게 이질적인 두 정보를 결합하는지, 그 핵심 아키텍처와 융합 메커니즘을 살펴보겠습니다.CLIP: 공유 임베딩 공간에서 이미지와 텍스트의 의미론적 조우OpenAI에 의해 개발된 CLIP(Contrastive Language-Image Pre-training)은 이미지와 텍스트가 서로의 의미를 이해할 수 있도록 공통의 의미론적 공간을 구축하는 모델입니다.핵심 아이디어:..
Theory/Multimodal Models
2025. 5. 21. 22:22