본문 바로가기

AI서비스개발3

모델 라우팅 전략 - 작업 난이도에 따라 모델을 골라 비용 최적화 AI 서비스를 만들다 보면 한 가지 의문이 생깁니다. "모든 요청에 가장 똑똑한 모델을 써야 할까?" 정답은 아니오입니다. 모델 라우팅이란 들어오는 질문이나 작업의 난이도를 판단해서, 그 수준에 맞는 모델로 자동으로 연결해 주는 전략입니다. "오늘 날씨 어때?"라는 질문에 세계 최고 수준의 AI를 쓰는 건 소총으로 모기를 잡는 격입니다. 반면 복잡한 코드 리뷰나 다단계 논리 추론이 필요한 작업은 성능이 높은 모델이 필요합니다.처음 AI 서비스를 만들었을 때 저도 모든 요청에 최상위 모델을 붙였습니다. 그런데 한 달 뒤 청구서를 보고 깜짝 놀랐습니다. 단순한 인사말이나 FAQ 답변에도 고가 모델이 돌아가고 있었던 거죠. 알고 보니 전체 요청의 60% 이상이 아주 간단한 질문들이었고, 그걸 다 비싼 모델로 .. 2026. 5. 31.

컨텍스트 윈도우 - 대화 유실, Lost in the Middle, RAG 대화가 20턴을 넘는 순간, 챗봇이 앞서 확인한 정보를 또 묻기 시작했습니다. 처음엔 프롬프트 문제라고 생각했는데, 로그를 파고들다 보니 원인은 전혀 다른 곳에 있었습니다. AI가 기억할 수 있는 물리적 한계, 즉 컨텍스트 윈도우를 초과하면서 대화 앞부분이 조용히 잘려나가고 있었던 겁니다.이 글은 그 문제를 직접 겪고 해결한 경험을 바탕으로 씁니다. 이론이 아닙니다. 실제로 고객 상담 자동화 챗봇에서 터진 장애였고, 그 장애를 해결하면서 설계 관점이 완전히 바뀐 경험입니다.대화 유실: 앞부분이 잘려나가는 이유컨텍스트 윈도우(Context Window)란 AI 모델이 한 번에 처리할 수 있는 텍스트의 최대 범위를 의미합니다. 사람으로 치면 단기 기억 용량에 해당하는 것으로, 이 한도를 넘어서면 모델은 초과.. 2026. 5. 13.

한국어 LLM 서비스, 왜 예산이 두 배로 나왔을까 처음에는 제 실수라고 생각했습니다. 영어 테스트 문서로 월 예산을 잡았는데, 실제 한국어 문서를 넣었더니 토큰이 두 배 가까이 나왔습니다. 프롬프트를 뒤지고, 설정을 확인하고, 혹시 중복 호출이 있나 로그를 뒤졌습니다. 결론은 제 코드 문제가 아니었습니다. 한국어 자체가 현재 대부분의 대형 언어 모델 토크나이저 구조에서 구조적으로 불리하다는 사실, 그걸 깨닫는 데 꽤 시간이 걸렸습니다.이 경험을 공유하는 이유는 단순합니다. 한국어 LLM 서비스를 만들 때 가장 먼저 맞닥뜨리는 이 비용 구조 문제에서, 생각보다 많은 분들이 같은 곳에서 넘어집니다. 저처럼 청구서를 받고 나서야 알게 되는 게 아니라, 미리 설계 단계에서 고려할 수 있도록 이 글을 씁니다.한국어가 토크나이저에서 불리한 이유현재 대부분의 대형 .. 2026. 5. 10.

이전 1 다음

소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 ⚡ 정보 부스터 🚀

티스토리툴바

티스토리툴바