| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- gqa
- attention
- MHA
- MQA
- BLEU
- Embedding
- model context protocol
- rotary position embedding
- re-ranking
- catastrophic forgetting
- SK AI SUMMIT 2025
- fréchet inception distance
- langgraph
- 토크나이저
- transformer
- Multi-Head Attention
- RLHF
- context engineering
- self-attention
- 트랜스포머
- CoT
- flashattention
- Langchain
- Positional Encoding
- reinforcement learning from human feedback
- extended thinking
- PEFT
- Engineering at Anthropic
- chain-of-thought
- test-time scaling
- Today
- Total
AI Engineer 공간 "사부작 사부작"
검색의 진화: 키워드부터 의미까지, 검색 기술의 삼위일체 본문
더 똑똑한 검색을 찾아서: 어휘적, 의미적, 하이브리드 검색 완벽 가이드
정보의 바다에서 원하는 정보를 정확하고 빠르게 찾는 것은 마치 숨은그림찾기와 같습니다. 특히 RAG(Retrieval-Augmented Generation) 시스템처럼 방대한 데이터 속에서 가장 관련성 높은 정보를 찾아내는 검색기의 역할은 무엇보다 중요합니다. 검색기는 마치 똑똑한 정보 탐험가처럼, 사용자의 질문 의도를 파악하고 최적의 답변을 이끌어낼 단서를 찾아냅니다. 하지만 이 탐험가들이 정보를 찾는 방식은 한 가지가 아닙니다. 마치 각기 다른 도구와 전략을 사용하는 탐험가들처럼, 검색기도 어휘적 검색, 의미적 검색, 그리고 이 둘을 결합한 하이브리드 검색 등 다양한 방법으로 정보를 탐색합니다. 이번 글에서는 이 세 가지 주요 검색 방법의 특징과 장단점을 살펴보고, 각각 어떤 상황에서 빛을 발하는지 쉽고 자세하게 알아보겠습니다.

어휘적 검색 (Lexical Search): 정확한 키워드 사냥꾼
어휘적 검색은 가장 전통적이면서도 기본적인 정보 검색 방식입니다. 사용자가 입력한 검색어(키워드)가 문서에 얼마나 자주 등장하는지, 문서 내에서 어떻게 분포되어 있는지를 계산하여 관련성을 판단합니다.
- 개념 및 작동 방식:
주로 키워드 일치에 기반합니다. 마치 도서관 사서가 책 제목이나 저자 이름과 정확히 일치하는 단어가 적힌 목록을 보고 책을 찾아주는 것과 비슷합니다. TF-IDF(Term Frequency-Inverse Document Frequency)나 BM25와 같은 알고리즘을 사용하여 텍스트 내 단어의 빈도, 문서 내 분포 등을 점수로 매기는 희소 벡터 방식을 사용합니다. - 예시:
사용자가 "아이폰 15 출시일"이라고 검색하면, 어휘적 검색은 문서 본문에 "아이폰", "15", "출시일"이라는 단어가 모두 포함되어 있거나, 이 단어들이 자주 등장하는 문서를 우선적으로 찾아 보여줍니다. - 비유:
어휘적 검색은 마치 단어 퍼즐 조각 맞추기 전문가와 같습니다. 사용자가 "사랑"이라는 조각을 주면, 문서 더미에서 정확히 "사랑"이라고 적힌 조각들을 찾아내는 데 집중합니다. 내용이 아무리 사랑에 관한 것이라도, "사랑"이라는 단어가 직접적으로 언급되지 않았다면 찾아내기 어려울 수 있습니다. - 장점:
- 계산 효율성이 높아 검색 속도가 빠릅니다.
- 쿼리에 포함된 정확한 키워드가 있는 문서를 찾는 데 매우 효과적입니다.
- 단점:
- 단어의 의미적 유사성을 파악하기 어렵습니다. 예를 들어, 사용자가 "자동차 사고"라고 검색했을 때, "차량 충돌"이라는 표현이 사용된 문서는 의미가 같음에도 불구하고 다른 것으로 인식하여 놓칠 수 있습니다.
- 동의어나 문맥적 의미를 이해하지 못해 검색 결과의 폭이 좁아질 수 있습니다.
의미적 검색 (Semantic Search): 문맥을 읽는 의미 분석가
의미적 검색은 단순한 키워드 일치를 넘어, 사용자의 검색 의도와 문맥을 이해하려는 시도에서 출발합니다. 단어 자체보다는 단어가 가진 의미와 개념을 중심으로 정보를 탐색합니다.
- 개념 및 작동 방식:
신경망 기반의 언어 모델(예: E5, BGE와 같은 인코더)을 사용하여 사용자의 쿼리와 검색 대상 문서를 의미를 내포한 밀집 벡터(dense vector)로 변환합니다. 이렇게 변환된 벡터들은 고차원 공간에 위치하게 되는데, 이 공간에서 쿼리 벡터와 가장 가까이 있는(즉, 의미적으로 가장 유사한) 문서 벡터를 찾아 검색 결과를 제공합니다. 자연어 처리(NLP) 기술을 사용하여 단어와 구문의 의미를 이해하고, 관련 개념, 동의어, 그리고 검색어와 관련될 수 있는 다른 정보들을 찾아냅니다. - 예시:
사용자가 "뉴욕에서 가장 높은 건물은 어디야?"라고 질문 형태로 검색했다고 가정해 봅시다. 의미적 검색은 "가장 높은 건물"이라는 구문의 의미를 이해하고, "엠파이어 스테이트 빌딩", "원 월드 트레이드 센터"처럼 직접적으로 "가장 높은 건물"이라는 키워드가 반복되지 않더라도 의미적으로 관련된 정보를 찾아 제시할 수 있습니다. "자동차 사고"와 "차량 충돌"을 유사한 의미로 이해하고 함께 검색 결과에 포함시킬 수 있습니다. - 비유:
의미적 검색은 마치 경험 많고 센스 있는 도서관 사서와 같습니다. 사용자가 "요즘 마음이 복잡한데, 생각을 정리하는 데 도움이 될 만한 책 있을까요?"라고 다소 모호하게 질문해도, 사서는 질문의 숨은 의도와 맥락을 파악하여 명상 관련 서적, 철학 에세이, 혹은 문제 해결 전략을 다룬 책 등 다양한 선택지를 추천해 줄 수 있습니다. 사용자의 말 속에 담긴 진짜 의미를 읽어내는 것입니다. - 장점:
- 키워드가 정확히 일치하지 않더라도 문맥과 의미가 유사한 문서를 찾을 수 있습니다.
- 사용자의 의도를 파악하여 더 관련성 높은 검색 결과를 제공할 수 있습니다.
- 단점:
- 문서를 의미 벡터로 변환(임베딩 생성)하고 벡터 간 유사도를 계산하는 데 상대적으로 높은 계산 비용이 필요합니다.
- 검색 성능이 임베딩 모델의 품질에 크게 의존합니다. 좋은 품질의 언어 모델을 학습시키는 데 많은 데이터와 자원이 필요합니다.
하이브리드 검색 (Hybrid Search): 두 전문가의 협업
하이브리드 검색은 이름에서 알 수 있듯이, 어휘적 검색과 의미적 검색의 장점만을 결합하여 검색 성능을 극대화하려는 접근 방식입니다.
- 개념 및 작동 방식:
어휘적 검색의 정확성과 속도, 그리고 의미적 검색의 문맥 이해 능력을 함께 활용합니다. 작동 방식은 크게 두 가지로 나눌 수 있습니다. 첫째는 어휘적 검색 결과와 의미적 검색 결과를 각각 도출한 후, 두 결과의 점수를 특정 가중치로 합산(fusion)하여 최종 순위를 매기는 방식입니다. 이때 상호 순위 결합(Reciprocal Rank Fusion, RRF)과 같은 알고리즘이 사용되기도 합니다. 둘째는 한 가지 방식(예: 어휘적 검색)으로 1차 후보군을 빠르게 추린 뒤, 다른 방식(예: 의미적 검색)으로 후보군 내에서 더욱 정교하게 순위를 재조정(re-ranking)하는 전략입니다. - 예시:
사용자가 "인공지능 기술의 미래 전망과 윤리적 문제"라고 검색했다고 가정해 봅시다. 하이브리드 검색은 먼저 '인공지능', '기술', '미래', '전망', '윤리', '문제' 등의 키워드가 포함된 문서를 어휘적 검색으로 빠르게 찾아냅니다(희소 벡터 활용). 그 다음, 찾아낸 문서들 중에서 '인공지능 발전 방향성', 'AI 윤리 규범 논의' 등과 같이 사용자의 검색 의도와 의미적으로 깊이 관련된 내용을 담고 있는 문서를 의미적 검색(밀집 벡터 활용)으로 다시 한번 걸러내어 최종 결과를 보여줍니다. - 비유:
하이브리드 검색은 마치 최정예 수사팀과 같습니다. 한 명의 베테랑 형사는 사건 현장에 남겨진 지문, 발자국, CCTV 영상 등 명확한 단서(어휘적 검색)를 꼼꼼하게 수집하고 분석합니다. 동시에, 프로파일러는 용의자의 심리 상태, 평소 행동 패턴, 주변인과의 관계 등 눈에 보이지 않는 맥락과 정황(의미적 검색)을 파헤칩니다. 이 두 전문가가 각자의 방식으로 얻어낸 정보를 유기적으로 결합할 때, 비로소 사건의 전모를 정확히 파악하고 진범을 잡을 확률이 극대화되는 것처럼, 하이브리드 검색도 두 가지 방식의 강점을 조합하여 사용자에게 가장 정확하고 풍부한 정보를 제공합니다. - 장점:
- 어휘적 검색의 신속성과 정확성, 의미적 검색의 문맥 이해 및 관련성 높은 결과 도출 능력을 모두 활용하여 전반적으로 더욱 강력하고 안정적인 검색 성능을 기대할 수 있습니다.
- 각 검색 방식이 가질 수 있는 단점(예: 어휘적 검색의 동의어 문제, 의미적 검색의 특정 키워드 누락 문제)을 서로 보완합니다.
- 단점:
- 두 가지 검색 시스템을 모두 구축하고 각 결과의 점수를 효과적으로 결합하는 등 시스템 구현 및 최적화 과정의 복잡도가 증가합니다.
- 어떤 비율로 두 검색 결과를 섞을지(예: 알파 값 조정) 결정하는 튜닝 과정이 필요할 수 있습니다.
마무리하며
지금까지 RAG 시스템을 비롯한 다양한 정보 검색 환경에서 활용되는 어휘적 검색, 의미적 검색, 그리고 하이브리드 검색의 특징과 장단점을 살펴보았습니다. 어휘적 검색은 정확한 키워드가 중요할 때, 의미적 검색은 사용자의 복잡한 의도나 문맥 파악이 필요할 때 강점을 보입니다. 그리고 하이브리드 검색은 이 두 가지 접근법의 장점을 결합하여 더욱 정교하고 만족스러운 검색 경험을 제공하려는 노력의 결과물입니다. 마치 요리사가 재료의 특성을 정확히 이해하고 최적의 조리법을 선택하듯, 우리들은 검색 대상 데이터의 특징과 사용자의 요구사항에 맞춰 가장 적합한 검색 전략을 선택하고 조합하여 서비스를 개발합니다.
https://arxiv.org/abs/2409.01357
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
Hybrid search has emerged as an effective strategy to offset the limitations of different matching paradigms, especially in out-of-domain contexts where notable improvements in retrieval quality have been observed. However, existing research predominantly
arxiv.org
'Theory > Retrieval-Augmented Generation' 카테고리의 다른 글
| Lost in the Middle: LLM은 왜 긴 글의 중간을 기억하지 못할까? (0) | 2025.06.12 |
|---|---|
| 고급 RAG 완전 정복: 쿼리 지능화, 검색 정교화, 반복 탐색으로 AI 답변의 격을 높이다! (0) | 2025.05.21 |
| RAG 성능 평가: 신뢰할 수 있는 인공지능을 만드는 길 (0) | 2025.05.21 |
| 검색 증강 생성(Retrieval-Augmented Generation, RAG): 똑똑한 LLM을 위한 실시간 외부 지식 연결고리 (0) | 2025.05.19 |