Anthropic Batch API - 비용 절감, custom

50,000개 상품 설명을 실시간 API로 분류하면 비용이 얼마나 나올까. 처음엔 그냥 루프 돌리면 되겠다 싶었는데, 견적을 뽑아보고 생각이 완전히 바뀌었다. 그날 이후로 대량 LLM 작업에서 Batch API는 선택이 아니라 기본 전제가 됐다.

50,000건 분류 작업, 실시간 API로 돌리다가 멈춘 이유

처음 이 프로젝트를 맡았을 때, 상품 설명 텍스트를 카테고리별로 분류하는 파이프라인을 짜야 했다. 규모는 약 50,000건. 초반에는 동기 API 호출 방식으로 접근했다. 동기 호출이란 요청을 하나 보내고, 응답이 올 때까지 기다렸다가, 다음 요청을 보내는 방식이다. 구조가 단순하고 결과를 즉시 확인할 수 있어서 처음 프로토타입을 짤 때는 편했다.

문제는 규모가 커지면서 바로 드러났다. rate limit에 계속 걸렸다. rate limit이란 API 제공자가 단위 시간당 허용하는 요청 수의 상한선을 말한다. 분당 요청 수 제한을 피하려면 요청 사이마다 인위적인 지연을 넣어야 했고, 그러다 보니 전체 처리 시간이 걷잡을 수 없이 늘어났다. 코드 절반이 재시도 로직으로 채워지는 상황이 됐는데, 솔직히 이건 예상 밖이었다. 단순한 분류 파이프라인이었는데 에러 핸들링과 백오프 로직만으로 코드가 몇 배 복잡해졌다. 유지보수하기도 어렵고, 디버깅도 힘들었다.

비용 문제도 있었다. 실시간 API 단가로 50,000건을 처리하면 만만치 않은 금액이 나온다. 이 작업이 꼭 실시간이어야 하는지 스스로에게 물어봤을 때, 답은 명확히 "아니오"였다. 카테고리 분류 결과가 1시간 뒤에 나와도 전혀 문제없는 작업이었으니까. 이 질문을 더 빨리 했더라면 처음부터 다른 접근법을 택했을 것이다. "실시간이 필요한가?"라는 질문 하나가 설계 방향을 완전히 바꾼다는 걸 그 경험으로 배웠다.

비용 절감 - Batch API 전환, 비용 절반에 rate limit 걱정도 사라진 이유

Anthropic의 Message Batches API는 비동기 방식으로 동작한다. 비동기란 요청을 한꺼번에 제출해두고 결과를 나중에 수령하는 방식으로, 처리 중에 다른 작업을 이어갈 수 있다. 요청을 JSONL 형식으로 묶어 하나의 배치 잡으로 제출하면, Anthropic 측에서 이를 백그라운드로 처리한 뒤 결과를 돌려주는 구조다. JSONL이란 JSON Lines의 약자로, 각 줄이 독립적인 JSON 객체인 파일 형식으로, 대용량 데이터를 줄 단위로 스트리밍하기에 적합하다.

공식 가격 정책 기준으로 Batch API를 쓰면 실시간 API 대비 50% 할인이 적용된다. 50,000건 기준으로 계산하면 비용이 절반으로 줄어드는 셈인데, 직접 써봤는데 이 수치는 실제로 정확하게 체감된다. 50% 절감이라는 게 작은 숫자처럼 느껴질 수도 있지만, 건수가 수만 단위를 넘어가면 절대 금액 차이가 꽤 커진다. 단가 이야기를 꺼내면 처음엔 "그게 얼마나 차이가 나냐"는 반응이 많은데, 직접 청구서를 놓고 비교해보면 바로 납득이 된다.

rate limit 압박이 사라진 것도 체감 효과가 컸다. 실시간 호출에서는 분당 요청 수와 토큰 사용량을 모니터링하면서 인위적으로 속도를 조절해야 했는데, 배치 방식에서는 그런 관리가 불필요했다. 배치 잡 안에서 개별 요청 간의 처리 속도는 Anthropic이 알아서 분산 처리하기 때문이다. 코드가 단순해지고, 운영 부담도 줄었다.

처리 완료까지 최대 24시간이 소요될 수 있다고 공식 문서에 명시돼 있다. 처음 이 부분을 봤을 때 솔직히 부담스러웠다. 그런데 막상 50,000건 규모로 실제로 돌려보니 2~4시간 내에 완료됐다. 24시간은 최악의 경우를 가정한 상한선으로 보는 게 맞고, 내 경험상 이건 좀 과하게 보수적인 수치다. 다만 SLA가 있는 서비스에 배치를 붙일 때는 이 불확실성을 설계에 반영해야 한다. "보통 2~4시간이면 끝나니까 괜찮겠지"라는 낙관적 가정으로 타이트한 스케줄을 세우면 안 된다. 처음엔 나도 그렇게 설계했다가 한 번 늦게 완료된 배치 때문에 후속 파이프라인이 대기하는 상황이 생겼다. 여유 버퍼를 넉넉히 잡아두는 게 맞다.

custom_id 매핑과 예외 처리, 놓치면 결과가 뒤섞인다

배치 처리에서 가장 주의해야 할 점이 하나 있다. 결과가 제출 순서와 다르게 반환된다는 점이다. 처음에 이걸 모르고 결과를 순서대로 받아서 원본 데이터와 매핑했다가 분류 결과가 전부 뒤섞이는 상황이 생겼다. 이 부분이 실제로 가장 많은 실수가 생기는 지점이었다. 처음에는 "설마 순서가 바뀌겠어"라고 생각하고 ID 매핑 없이 인덱스로 매핑했는데, 결과 파일을 보고 나서야 완전히 잘못됐다는 걸 알았다.

해결책은 각 요청에 custom_id를 붙이는 것이다. custom_id란 요청마다 고유하게 부여하는 식별자로, 결과가 어떤 순서로 반환되더라도 이 ID를 기준으로 원본 데이터와 1:1 매핑할 수 있다. 상품의 고유 ID를 그대로 custom_id로 사용했고, 결과 JSONL을 파싱할 때 이 ID로 딕셔너리를 만들어서 매핑했다. 이 방식은 단순하면서도 확실하다. 외부 DB ID나 UUID를 그대로 쓰는 게 가장 오류 가능성이 낮다.

예외 처리 파이프라인도 별도로 구축해야 했다. 배치 결과 안에는 성공한 요청뿐 아니라 에러로 반환된 요청도 섞여 있을 수 있다. 실패 항목을 추출해 별도 JSONL로 저장해두고, 이를 다시 소규모 배치 잡으로 재제출하는 방식으로 처리했다. 전체 건수 대비 실패율은 낮았지만, 0%가 아닌 이상 이 로직은 필수다. 실패율이 낮다는 이유로 재처리 로직을 안 만들었다가 나중에 수동으로 실패 건을 골라내는 상황이 생기면 훨씬 번거롭다.

대용량 결과 파일을 다룰 때도 한 가지 함정이 있었다. 수만 건의 결과가 담긴 JSONL 파일을 한꺼번에 메모리에 올리면 메모리 부족이 발생했다. 파일을 줄 단위로 읽어가며 처리하는 스트리밍 방식을 써야 이 문제를 피할 수 있었다. 이걸 처음에 간과하고 전체를 한꺼번에 로드하려다 프로세스가 죽는 경험을 했다. 50,000건이면 결과 파일 자체도 상당한 크기다.

Batch API 전환 시 챙겨야 할 핵심 구현 포인트를 정리하면 다음과 같다. custom_id를 요청마다 반드시 부여하고 결과 파싱 시 이를 기준으로 원본과 매핑해야 한다. 성공과 실패 항목을 분리하고 실패 항목만 재처리하는 예외 처리 로직을 구축해야 한다. 결과 JSONL 파일은 스트리밍 방식으로 파싱해 메모리 이슈를 방지해야 한다. 처리 완료 여부는 폴링 또는 웹훅으로 확인하는 방식을 택해야 한다.

Batch API가 적합한 상황과 적합하지 않은 상황

이 경험을 통해 얻은 결론은 단순하다. 실시간 응답이 필요 없는 LLM 작업이라면, Batch API를 기본 선택지로 놓고 시작하는 게 맞다. 분류, 요약, 데이터 정제, 레이블링처럼 배치 처리에 완벽히 적합한 작업들이 실제로 매우 많은데, 많은 개발자들이 습관적으로 동기 API를 쓴다. OpenAI도 유사한 배치 처리 인터페이스를 제공하고 있어, 이 방식이 업계에서 대량 처리의 표준적인 접근법으로 자리 잡아가고 있다는 점도 중요하다.

단, Batch API가 맞지 않는 상황도 분명하다. 실시간 사용자 인터랙션, 시간에 민감한 알림, 완료 시점을 정확히 보장해야 하는 SLA가 있는 서비스에서는 배치 방식이 치명적인 단점이 된다. 챗봇 응답, 실시간 추천 시스템 같은 경우가 여기에 해당한다. 이 구분을 명확히 하지 않으면 잘못된 도구를 잘못된 곳에 쓰는 실수가 생긴다.

결국 Batch API는 "빠름"보다 "저렴함"을 택하는 트레이드오프다. 트레이드오프란 한쪽을 얻으면 다른 쪽을 포기해야 하는 상충 관계를 의미한다. 이 트레이드오프를 팀 안에서 명확히 인식하고 워크플로를 설계하는 것이 아키텍처적으로 중요한 판단이다. 실시간이 필요 없는 작업에 굳이 실시간 비용을 지불하는 건, 내 경험상 가장 흔하고 가장 조용하게 비용을 갉아먹는 실수다. 그 결정이 처음에는 아주 사소해 보이기 때문에 더 위험하다.

대량 LLM 처리 파이프라인을 처음 설계한다면, 작업의 시간 민감도를 먼저 따져보길 권한다. 그 답이 "몇 시간 내라도 괜찮다"라면, Batch API로 시작하는 것이 가장 합리적인 선택이다.

참고

Anthropic. (2024). Message Batches API. https://docs.anthropic.com/en/docs/build-with-claude/message-batches
Anthropic. (2024). Pricing. https://www.anthropic.com/pricing
OpenAI. (2024). Batch API Guide. https://platform.openai.com/docs/guides/batch

저작자표시 비영리 동일조건 (새창열림)

[⚡ 정보 부스터 < IT/기술 블로그 > 🚀]

Anthropic Batch API - 비용 절감, custom_id, rate limit

50,000건 분류 작업, 실시간 API로 돌리다가 멈춘 이유

비용 절감 - Batch API 전환, 비용 절반에 rate limit 걱정도 사라진 이유

custom_id 매핑과 예외 처리, 놓치면 결과가 뒤섞인다

Batch API가 적합한 상황과 적합하지 않은 상황

티스토리툴바

티스토리툴바