LLM비용절감1 API 토큰 비용 (입출력 요금, 구조화 출력, Batch API) API를 쓰면서 비용이 예상보다 두 배 가까이 나온 적 있으신가요? 저는 있습니다. 그것도 첫 달 청구서를 받고 나서야 깨달았습니다. 입력 토큰과 출력 토큰의 요금이 다르다는 걸, 직접 돈을 날리고 나서야 제대로 인식하게 됐습니다. 그 경험이 지금의 설계 습관을 만들었습니다.입출력 요금이 다르다는 것, 청구서가 가르쳐줬습니다RAG(Retrieval-Augmented Generation) 기반의 문서 질의응답 서비스를 만들고 있었습니다. 여기서 RAG란 외부 문서를 검색해서 그 내용을 컨텍스트로 LLM에 넘기는 방식으로, 모델이 학습하지 않은 최신 정보나 사내 자료를 다룰 때 자주 쓰이는 아키텍처입니다.구조는 단순했습니다. 사용자가 질문하면 관련 문서를 검색하고, 검색된 결과 전체를 컨텍스트 윈도우에 넣은.. 2026. 5. 12. 이전 1 다음