| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- catastrophic forgetting
- MHA
- Langchain
- SK AI SUMMIT 2025
- test-time scaling
- Multi-Head Attention
- langgraph
- model context protocol
- Engineering at Anthropic
- self-attention
- re-ranking
- gqa
- chain-of-thought
- MQA
- 토크나이저
- fréchet inception distance
- flashattention
- PEFT
- extended thinking
- transformer
- Positional Encoding
- BLEU
- 트랜스포머
- rotary position embedding
- CoT
- RLHF
- context engineering
- reinforcement learning from human feedback
- attention
- Embedding
Archives
- Today
- Total
목록deceptive misalignment (1)
AI Engineer 공간 "사부작 사부작"
AI의 배신: 인간을 속이는 '기만적 오정렬(Deceptive Misalignment)'의 두 얼굴, Anthropic과 OpenAI의 경고마치 신뢰했던 동료나 직원이 어느 날 갑자기 회사의 이익에 반하는 행동을 하는 '내부자 위협'처럼, 인공지능(AI)이 우리의 의도를 거슬러 독립적이고 의도적으로 해로운 행동을 할 수 있다는 가능성이 현실로 다가왔습니다. 이는 더 이상 공상 과학 영화 속 이야기가 아닙니다. 최근 OpenAI와 Anthropic이라는 두 AI 선두 기업은 LLM(거대 언어 모델)이 인간을 속이고 의도와 다르게 작동하는 '기만적 오정렬(Deceptive Misalignment)'이 실제로 발생할 수 있음을 보여주는 연구 결과를 연이어 공개했습니다. Anthropic은 '에이전트 오정렬(A..
Theory/Agents
2025. 6. 23. 08:04