| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- fréchet inception distance
- rotary position embedding
- flashattention
- SK AI SUMMIT 2025
- gqa
- model context protocol
- chain-of-thought
- Engineering at Anthropic
- MQA
- catastrophic forgetting
- context engineering
- PEFT
- Positional Encoding
- Multi-Head Attention
- re-ranking
- Langchain
- extended thinking
- 토크나이저
- MHA
- CoT
- test-time scaling
- 트랜스포머
- reinforcement learning from human feedback
- RLHF
- Embedding
- BLEU
- transformer
- self-attention
- langgraph
- attention
- Today
- Total
AI Engineer 공간 "사부작 사부작"
LLM 성능의 또 다른 핵심 키 포인트: 데이터 정제, 전처리, 토크나이저 본문
LLM 성능의 또 다른 핵심 키 포인트: 데이터 정제, 전처리, 토크나이저
ChoYongHo 2025. 5. 17. 15:21LLM 성능의 일등 공신: 데이터 정제, 전처리, 그리고 토크나이저 이야기
대규모 언어 모델(LLM)이 세상을 놀라게 하는 성능을 보여주는 요즘, 그 비결에 대한 궁금증도 커지고 있습니다. 뛰어난 알고리즘과 방대한 컴퓨팅 자원도 중요하지만, LLM 학습의 근간에는 바로 '데이터'가 있습니다. 마치 농부가 좋은 씨앗을 고르고 땅을 정성껏 가꾸어야 풍성한 수확을 얻을 수 있듯이, LLM 역시 고품질의 데이터를 어떻게 다루느냐에 따라 그 성능이 크게 좌우됩니다. 데이터에 포함된 미세한 결함이나 편향까지도 모델이 그대로 학습하기 때문입니다.
이번 글에서는 LLM의 성능을 결정짓는 핵심 요소인 데이터 정제, 전처리 과정과 토크나이저 선택이 모델 훈련 및 최종 성능에 어떤 영향을 미치는지, 그 중요성과 구체적인 방법들을 쉽고 자세하게 알아보겠습니다.
모델 학습의 첫 단추: 깨끗하고 잘 정돈된 데이터 만들기
"쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)"는 말처럼, LLM에게 제공되는 데이터의 품질은 모델의 성능과 직결됩니다. 아무리 뛰어난 모델이라도 저품질 데이터로 학습하면 좋은 결과를 기대하기 어렵습니다. 따라서 성공적인 LLM 훈련을 위해서는 세심한 데이터 정제 및 전처리 과정이 필수적입니다.
데이터 정제 및 전처리: 원석을 보석으로 다듬는 과정
데이터 정제 및 전처리는 마치 원석을 세공하여 빛나는 보석으로 만드는 과정과 같습니다. 원본 데이터에 섞여 있는 불순물을 제거하고, 모델이 잘 이해하고 학습할 수 있는 형태로 가공하는 작업이기 때문입니다. 주요 단계는 다음과 같습니다.
- 데이터 정제 (Data Cleaning): 불순물 걸러내기
- 개념: 데이터에 포함된 노이즈(예: 웹사이트의 HTML 태그, 불필요한 특수문자), 형식 오류, 불일치 등을 식별하고 수정하거나 제거하는 과정입니다.
- 예시: 웹에서 수집한 텍스트 데이터에서 <p>, <div> 와 같은 HTML 태그를 제거하거나, 깨진 문자나 오타를 수정하는 작업을 생각할 수 있습니다.
- 비유: 요리하기 전에 재료를 깨끗이 씻고 다듬는 과정과 같습니다. 흙이 묻어 있거나 상한 부분을 제거해야 맛있는 요리를 만들 수 있겠죠.
- 중복 제거 (Deduplication): 군더더기 덜어내기
- 개념: 훈련 데이터셋 내에 동일하거나 매우 유사한 내용이 반복적으로 나타나는 것을 제거하는 과정입니다. 이는 학습 효율성을 높이고 모델이 특정 데이터를 단순히 암기하는 것을 방지합니다.
- 예시: 인터넷 게시판에서 동일한 내용의 글이 여러 번 복사되어 있다면, 이 중 하나만 남기고 나머지는 제거합니다.
- 비유: 중요한 내용만 간추려 요약 노트를 만드는 것과 비슷합니다. 중복된 내용을 여러 번 반복해서 읽는 것보다 핵심만 정리된 노트를 보는 것이 학습에 더 효율적입니다.
- 품질 필터링 (Quality Filtering): 옥석 가려내기
- 개념: 학습에 부적합하거나 모델 성능에 부정적인 영향을 줄 수 있는 저품질 콘텐츠(예: 욕설, 비속어, 스팸성 광고, 의미 없는 문자열)를 식별하고 제거하는 작업입니다.
- 예시: 특정 기준(문장 길이, 욕설 포함 여부 등)을 설정하여 기준에 미달하는 데이터를 걸러냅니다.
- 비유: 도서관에서 책을 선정할 때, 내용이 부실하거나 오래되어 가치가 떨어진 책보다는 양질의 책을 우선적으로 고르는 것과 같습니다.
- 개인정보 및 민감정보 처리 (Privacy Handling): 안전장치 마련하기
- 개념: 훈련 데이터에 포함될 수 있는 개인 식별 정보(이름, 전화번호, 주소 등)나 민감한 내용을 제거하거나 익명화(마스킹)하는 과정입니다. 이는 모델이 개인정보를 학습하거나 유출하는 것을 방지하여 윤리적 문제를 예방합니다.
- 예시: "홍길동 고객님의 전화번호는 010-1234-5678입니다." 라는 문장에서 "홍길동"을 "[이름]", "010-1234-5678"을 "[전화번호]"와 같이 일반적인 태그로 대체합니다.
- 비유: 중요한 문서에서 비밀 정보를 검은색 펜으로 가리는 것과 같습니다. 정보의 핵심 내용은 유지하되, 민감한 부분은 보호하는 것이죠.
이러한 데이터 정제 및 전처리 과정은 모델이 데이터의 본질적인 패턴을 더 잘 학습하도록 돕고, 최종적으로 LLM의 성능과 신뢰도를 높이는 데 결정적인 역할을 합니다.
텍스트를 숫자로 변환하는 마법: 토크나이저의 세계
정제되고 전처리된 텍스트 데이터는 이제 모델이 이해할 수 있는 형태로 변환되어야 합니다. 이때 사용되는 것이 바로 토크나이저(Tokenizer)입니다. 토크나이저는 문장과 같은 텍스트를 더 작은 단위인 토큰(Token)으로 분리하고, 각 토큰을 숫자로 이루어진 ID로 변환하는 역할을 합니다.
토크나이저: 텍스트를 모델의 언어로 번역하는 번역가
토크나이저는 마치 인간의 언어를 컴퓨터가 이해할 수 있는 기계어로 번역하는 번역가와 같습니다. 어떤 방식으로 단어를 쪼개고 숫자로 표현하느냐에 따라 모델의 이해도와 학습 효율이 달라질 수 있습니다.
- 전통적인 토크나이저 vs 서브워드 기반 토크나이저
- 전통적인 토크나이저: 과거에는 공백이나 문장부호를 기준으로 단어를 나누는 방식이 주로 사용되었습니다. 예를 들어 "I am learning NLP."는 ["I", "am", "learning", "NLP."]와 같이 분리됩니다. 하지만 이 방식은 신조어나 오타, 그리고 한국어처럼 조사가 발달한 언어에서 의미 단위로 단어를 분리하기 어렵다는 단점이 있습니다.
- 서브워드(Subword) 기반 토크나이저: 이러한 단점을 보완하기 위해 등장한 것이 서브워드 기반 토크나이저입니다. 대표적으로 BPE(Byte Pair Encoding), WordPiece, Unigram 등이 있으며, 이들은 단어를 고정된 단위가 아닌, 더 작은 의미 단위(서브워드)로 분리합니다. 예를 들어 'lowest'라는 단어가 있다면, 'low'와 'est'처럼 더 작은 의미 조각으로 나눌 수 있습니다. 이는 어휘 사전에 없는 새로운 단어(OOV, Out-Of-Vocabulary) 문제에 효과적으로 대응하고, 희귀한 단어도 잘 표현할 수 있게 해줍니다. GPT 계열 모델에서 BPE가 사용된 것으로 알려져 있습니다.
- BPE(Byte Pair Encoding) 작동 방식
- 개념: BPE는 데이터에서 가장 빈번하게 등장하는 문자열 쌍을 찾아 하나의 단위로 병합하는 과정을 반복하여 어휘 사전을 구축합니다.
- 예시: "low", "lowest", "lower"라는 단어들이 훈련 데이터에 있다고 가정해 봅시다.
- 처음에는 모든 단어를 글자 단위로 분리합니다: l, o, w, l, o, w, e, s, t, l, o, w, e, r.
- 가장 자주 등장하는 글자 쌍 (예: 'lo')을 찾아 하나의 단위('lo')로 합칩니다.
- 다음으로 자주 등장하는 쌍 (예: 'ow')을 합쳐 'low'를 만듭니다.
- 이런 식으로 빈번한 등장 패턴을 찾아 병합하며 'er', 'est' 같은 서브워드 단위들을 만들어 어휘 사전에 추가합니다. 결과적으로 "low", "er", "est"와 같은 토큰들로 단어들을 표현할 수 있게 됩니다.
- 비유: 레고 블록으로 다양한 모양을 만드는 것과 비슷합니다. 처음에는 아주 작은 기본 블록(개별 문자)만 있지만, 자주 함께 사용되는 블록 조합(자주 등장하는 문자열 쌍)을 미리 더 큰 블록(서브워드)으로 만들어두면, 더 적은 수의 블록으로도 효율적으로 복잡한 구조물(단어)을 표현할 수 있습니다.
토크나이저 선택, LLM 성능의 핵심 열쇠
어떤 토크나이저를 선택하고 어떻게 구성하느냐는 LLM의 학습 효율성과 최종 성능에 큰 영향을 미칩니다.
- 어휘 사전 크기 (Vocabulary Size)
- 개념: 토크나이저가 만들어내는 고유한 토큰들의 집합 크기를 의미합니다.
- 영향:
- 큰 어휘 사전: 텍스트를 더 적은 수의 토큰으로 압축하여 문장(시퀀스) 길이를 줄이고, 이는 모델의 계산 효율성을 높일 수 있습니다. 하지만 모델이 각 토큰의 의미를 저장하는 임베딩 행렬의 크기가 커져 메모리 요구량이 증가하는 단점이 있습니다.
- 작은 어휘 사전: 메모리 사용량은 줄어들지만, 하나의 단어를 여러 개의 토큰으로 표현해야 하므로 시퀀스 길이가 길어져 계산 부담이 늘어날 수 있습니다.
- 비유: 사전을 편찬한다고 생각해 보세요. 사전에 단어가 많을수록(큰 어휘 사전) 각 단어를 직접 찾아 표현하기 쉽지만, 사전 자체가 두꺼워집니다. 반대로 사전에 단어가 적으면(작은 어휘 사전) 한 단어를 설명하기 위해 여러 단어를 조합해야 하지만, 사전은 얇아집니다. 연구에 따르면 어휘 크기가 특정 수준(예: 50k)을 넘어서면 연산 비용 증가로 인해 상쇄 효과가 줄어들 수 있다는 결과도 있습니다.
- 효율성 및 성능
- 개념: 토크나이저가 얼마나 효율적으로 텍스트를 처리하고, 이것이 모델 성능에 얼마나 긍정적인 영향을 미치는지를 의미합니다.
- 영향: 데이터의 특성(예: 프로그래밍 코드, 특정 언어, 다국어 텍스트)에 잘 맞는 토크나이저를 사용하면 시퀀스 길이를 효과적으로 줄여 계산 부담을 낮추고, 모델이 한 번에 처리할 수 있는 유효한 문맥의 길이를 늘릴 수 있습니다. 예를 들어 한국어 데이터에는 한국어의 특성을 잘 반영한 토크나이저를 사용하는 것이 유리할 수 있습니다. 반대로, 데이터 특성에 부적절한 토크나이저를 사용하면 모델이 텍스트를 올바르게 이해하지 못해 성능 저하를 유발하고, 심지어는 보안 취약점으로 이어질 수도 있습니다.
- 비유: 요리사가 재료를 손질하는 방법에 비유할 수 있습니다. 생선의 종류(데이터 특성)에 따라 회를 뜰지, 구이를 할지, 조림을 할지 결정하고 그에 맞게 손질(토큰화)해야 최상의 맛(모델 성능)을 낼 수 있습니다. 엉뚱한 방식으로 손질하면 재료 본연의 맛을 살리지 못하거나 요리를 망칠 수도 있습니다.
결국 토크나이저의 선택은 모델의 학습 속도, 메모리 사용량, 그리고 가장 중요하게는 언어 이해 능력과 직결되는 매우 중요한 결정 사항입니다.
마무리하며
지금까지 살펴본 것처럼, 데이터 정제, 전처리, 그리고 토크나이저 선택은 LLM 개발 과정에서 결코 가볍게 여길 수 없는 핵심적인 단계들입니다. 모델은 우리가 제공하는 데이터를 통해 세상을 배우고 이해하기 때문에, 데이터의 품질과 처리 방식은 LLM의 지능과 성능을 결정짓는 가장 근본적인 요소라고 할 수 있습니다. 앤드류 응 교수는 "좋은 데이터를 수집하고 가공하는 것이 인공지능을 만드는 과정의 80%를 차지한다"고 강조했습니다. 이는 고품질 데이터를 확보하고 효과적으로 처리하려는 노력이 모델 구조를 개선하는 것만큼, 혹은 그 이상으로 중요하다는 의미입니다.
https://arxiv.org/abs/2310.08754
Tokenizer Choice For LLM Training: Negligible or Crucial?
The recent success of Large Language Models (LLMs) has been predominantly driven by curating the training dataset composition, scaling of model architectures and dataset sizes and advancements in pretraining objectives, leaving tokenizer influence as a bli
arxiv.org
'Theory > Training & Fine-Tuning' 카테고리의 다른 글
| AI 추론 능력의 비밀, RLHF와 RLVR: DeepSeek-R1은 어떻게 '생각'을 배웠나? (0) | 2025.05.17 |
|---|---|
| RLHF 보상 모델 설계의 비밀: 인간 선호를 정확히 읽는 AI의 나침반 (0) | 2025.05.17 |
| AI 조율의 미학: RLHF부터 GRPO까지, LLM 정렬 기법 별 핵심과 선택 전략 (0) | 2025.05.17 |
| 명령어 튜닝(Instruction Tuning)'과 '거부 샘플링(Rejection Sampling): LLM을 더 똑똑하게 만드는 비법 (0) | 2025.05.17 |
| 거대한 인공지능, 길들이는 기술: 트랜스포머 훈련 안정성의 비밀 (0) | 2025.05.17 |