본문 바로가기

분류 전체보기73

RAG 청킹 전략 (고정 크기, 계층적 청킹, 컨텍스트 창) 사내 계약서 분석 자동화 프로젝트를 맡았을 때, 저도 처음엔 청킹(chunking)을 그냥 텍스트 자르는 작업 정도로 봤습니다. 그런데 실제로 서비스를 돌려보니, 임베딩 모델이나 벡터 DB보다 청킹 전략이 결과 품질을 훨씬 크게 좌우했습니다. 청킹이란 긴 문서를 LLM이 처리할 수 있는 크기의 조각으로 나누는 작업으로, RAG 파이프라인 전체의 성능을 결정짓는 핵심 단계입니다.고정 크기 청킹이 실패한 날처음에 적용한 방식은 고정 크기(fixed-size) 청킹이었습니다. 고정 크기 청킹이란 문서의 내용이나 구조를 고려하지 않고 일정한 글자 수나 토큰 수 단위로 텍스트를 잘라내는 방식입니다. 구현이 단순하고 직관적이라 많은 RAG 튜토리얼에서 첫 번째 예시로 등장하는 방법이기도 합니다.결과는 솔직히 예상 .. 2026. 5. 21.
LLM 토크나이저 (tiktoken, 언어별 비용, Claude API) "단어 수에 1.3 곱하면 토큰 수 나오지 않나요?" 처음 GPT-4 API 비용을 예측할 때 저도 그렇게 생각했습니다. 그런데 실제로 tiktoken을 설치해서 돌려봤더니, 한국어가 섞인 프롬프트에서 그 수식은 완전히 빗나갔습니다. 토크나이저는 개발자가 대충 넘겨도 되는 부분이 아니라, API 비용과 컨텍스트 한도를 결정짓는 핵심 요소입니다.tiktoken 직접 써보니 알게 된 것들저는 GPT-4 API 비용을 사전에 계산하려는 목적으로 tiktoken을 처음 설치했습니다. pip install tiktoken 이후 cl100k_base 인코딩을 불러오면 텍스트가 정수 리스트로 변환되는데, 그 리스트의 길이가 곧 토큰 수가 됩니다. 구조 자체는 직관적으로 이해됐지만, 실제 수치를 보고 나서는 좀 당황스.. 2026. 5. 20.
LLM 출력 토큰 절약 (전처리 텍스트, JSON 출력, max_tokens) API 비용 청구서를 받고 멍해진 적 있으신가요? 저는 뉴스 기사 100개를 자동 요약하는 배치 작업을 돌리고 나서 그 기분을 처음 느꼈습니다. 입력 토큰보다 출력 토큰이 더 많이 나온 청구서였는데, 원인을 파고들다 보니 생각보다 단순한 데 있었습니다. 출력 토큰을 줄이는 방법은 여러 갈래가 있고, 어떤 방향이 맞는지에 대해서도 의견이 갈립니다. 직접 실험하면서 정리한 내용을 공유합니다.전처리 텍스트가 비용을 얼마나 잡아먹는가배치 작업을 돌렸을 때 모델이 매번 이런 식으로 출력을 시작하고 있었습니다. "이 기사는 경제 분야를 다루고 있으며, 다음과 같은 내용을 요약하겠습니다." 요약 본문이 나오기 전에 이미 토큰을 수십 개씩 써버리는 것이었습니다. 100개 기사면 그 전처리 텍스트만으로도 무시하지 못할 .. 2026. 5. 19.
Few-shot 프롬프팅 (예시 수량, 품질, 컨텍스트) 예시를 많이 넣을수록 AI가 더 잘 따라온다고 믿었습니다. 그런데 직접 실험해보니 예시 다섯 개가 두 개보다 나을 게 없었습니다. 토큰은 두 배 넘게 쓰면서요. Few-shot 프롬프팅에 대해 흔히 알려진 것과 실제 사이에는 꽤 큰 간격이 있습니다. 그 간격을 직접 좁혀가면서 알게 된 것들을 정리했습니다.예시 수량보다 중요한 것이 있었습니다텍스트 분류 작업을 처음 맡았을 때, 저는 Zero-shot으로 시작했습니다. Zero-shot이란 예시 없이 지시문만으로 모델에게 작업을 맡기는 방식입니다. "다음 텍스트를 긍정, 부정, 중립으로 분류해줘"라고만 했는데, 결과가 제 기대와 계속 어긋났습니다. "배송이 좀 늦었지만 제품은 좋았어요"를 모델은 긍정으로 처리했고, 저는 중립을 원했습니다. 지시문을 아무리 .. 2026. 5. 18.
긴 문서 AI 분석 (컨텍스트, 청킹, 중간 소실) 30페이지짜리 계약서를 AI에 통째로 넘겼다가 오류 메시지를 받아본 분이라면 이 글이 반갑게 느껴질 겁니다. 저도 처음엔 당연히 전문을 다 붙여넣으면 된다고 생각했습니다. 그 생각이 완전히 틀렸다는 걸 알게 된 이후로 방식이 달라졌습니다. 긴 문서를 AI에 분석시킬 때 실제로 효과가 있었던 전략과, 그 과정에서 발견한 한계를 정리했습니다.컨텍스트 윈도우와 토큰의 현실AI 모델에 문서를 넘길 때 가장 먼저 부딪히는 한계가 컨텍스트 윈도우(context window)입니다. 컨텍스트 윈도우란 AI 모델이 한 번의 요청에서 처리할 수 있는 텍스트의 최대 분량을 의미합니다. 단위는 토큰(token)인데, 토큰이란 모델이 텍스트를 처리하는 최소 단위로 한국어 기준 한 글자가 대략 1~2토큰에 해당합니다.제가 처음.. 2026. 5. 17.
시스템 프롬프트 최적화 (토큰 절감, 프롬프트 구조, 보안 한계) API를 처음 붙일 때 저도 똑같은 실수를 했습니다. 매 요청마다 "너는 이런 역할이고, 한국어로 답하고, 코드는 이렇게, 형식은 저렇게"를 붙여 넣었고, 대화가 10턴을 넘어가자 청구서가 무서워지기 시작했습니다. 시스템 프롬프트(System Prompt)를 제대로 이해하고 나서야 그 낭비가 얼마나 컸는지 실감했습니다. 이 글은 그 경험에서 출발합니다.사용자 메시지에 모든 걸 욱여넣던 시절API를 처음 다룰 때 가장 흔히 저지르는 실수가 있습니다. 바로 롤 지정, 어조, 출력 형식 같은 설정 정보를 사용자 메시지(User Message) 안에 전부 집어넣는 방식입니다. 사용자 메시지란 대화의 매 턴마다 모델에 전달되는 입력값으로, 여기에 설정 문장을 반복 삽입하면 토큰(Token) 소비가 기하급수적으로 .. 2026. 5. 16.

소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 ⚡ 정보 부스터 🚀