본문 바로가기

tiktoken2

LLM 토크나이저 (tiktoken, 언어별 비용, Claude API) "단어 수에 1.3 곱하면 토큰 수 나오지 않나요?" 처음 GPT-4 API 비용을 예측할 때 저도 그렇게 생각했습니다. 그런데 실제로 tiktoken을 설치해서 돌려봤더니, 한국어가 섞인 프롬프트에서 그 수식은 완전히 빗나갔습니다. 토크나이저는 개발자가 대충 넘겨도 되는 부분이 아니라, API 비용과 컨텍스트 한도를 결정짓는 핵심 요소입니다.tiktoken 직접 써보니 알게 된 것들저는 GPT-4 API 비용을 사전에 계산하려는 목적으로 tiktoken을 처음 설치했습니다. pip install tiktoken 이후 cl100k_base 인코딩을 불러오면 텍스트가 정수 리스트로 변환되는데, 그 리스트의 길이가 곧 토큰 수가 됩니다. 구조 자체는 직관적으로 이해됐지만, 실제 수치를 보고 나서는 좀 당황스.. 2026. 5. 20.
AI 토큰 (BPE, 토큰 측정, 비용 최적화) 마크다운 문서를 Claude API에 넣었을 때 토큰 한도 초과 오류가 떴습니다. 글자 수는 분명 제한 이내였는데도 말입니다. 그날 처음으로 "토큰이 글자 수랑 같은 게 아니구나"를 몸으로 깨달았습니다. 문서를 아무리 읽어도 체감이 안 됐던 개념이, 오류 한 번에 단번에 박혔습니다.BPE와 토큰의 작동 원리AI 언어 모델은 텍스트를 문자 단위가 아닌 토큰(Token) 단위로 처리합니다. 여기서 토큰이란 단어 전체일 수도 있고, 단어의 일부 조각일 수도 있는 텍스트의 최소 처리 단위를 말합니다. 영어 기준으로는 대략 4글자가 1토큰이고, 한국어는 글자 1~2개가 1토큰에 해당하는 경우가 많습니다.이 토큰을 어떻게 나눌지 결정하는 방식이 BPE(Byte Pair Encoding)입니다. BPE란 원래 데이터.. 2026. 5. 11.

소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 ⚡ 정보 부스터 🚀