일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- flashattention
- CoT
- Positional Encoding
- FID
- u-shaped performance curve
- MHA
- needle-in-a-haystack
- Lora
- benchmark
- gqa
- PEFT
- re-ranking
- catastrophic forgetting
- MQA
- LLM
- Multi-Head Attention
- self-attention
- attention
- BLEU
- 트랜스포머
- clip
- fréchet inception distance
- u자형 성능 곡선
- RLHF
- reinforcement learning from human feedback
- transformer
- Rag
- rotary position embedding
- Rope
- chain-of-thought
- Today
- Total
목록Theory/Multimodal Models (2)
AI Engineer의 '사부작' 공간
멀티모달 AI의 어려움: 설계와 훈련의 6가지 핵심 난관 완전 해부멀티모달 인공지능(Multimodal AI)은 텍스트, 이미지, 음성, 비디오 등 이종(heterogeneous) 데이터 소스로부터 정보를 통합적으로 처리하고 이해하는 능력을 통해 기존 단일 모달리티 기반 AI의 한계를 초월하는 패러다임을 제시하고 있습니다. 사람이 다중 감각 채널을 통해 세계를 인지하고 상호작용하는 방식과 유사하게, 멀티모달 AI는 보다 포괄적이고 강인한(robust) 지능 구현을 지향합니다. 그러나 이러한 고차원적 목표 달성을 위한 모델 설계 및 훈련 과정에는 해결해야 할 다층적이고 복합적인 기술적 난제들이 산재해 있습니다. 이번 글에서는 멀티모달 AI 연구 및 개발에서 직면하는 주요한 도전 과제들을 심층적으로 살펴보고..

멀티모달의 심장, 텍스트-이미지 융합: CLIP, Flamingo, LLaVA 심층 해부인공지능(AI) 분야에서 멀티모달 시스템은 인간과 유사한 정보 이해를 목표로 하며, 시각 정보(이미지)와 언어 정보(텍스트)의 정교한 융합은 AI가 세상을 다면적으로 인식하는 데 핵심입니다. 멀티모달 AI 모델인 CLIP, Flamingo, LLaVA가 어떻게 이질적인 두 정보를 결합하는지, 그 핵심 아키텍처와 융합 메커니즘을 살펴보겠습니다.CLIP: 공유 임베딩 공간에서 이미지와 텍스트의 의미론적 조우OpenAI에 의해 개발된 CLIP(Contrastive Language-Image Pre-training)은 이미지와 텍스트가 서로의 의미를 이해할 수 있도록 공통의 의미론적 공간을 구축하는 모델입니다.핵심 아이디어:..