자연어처리1 AI 토큰은 글자 수가 아니다 (BPE, 토큰 측정, 비용 최적화) 마크다운 문서를 Claude API에 넣었을 때 토큰 한도 초과 오류가 떴습니다. 글자 수는 분명 제한 이내였는데도 말입니다. 그날 처음으로 "토큰이 글자 수랑 같은 게 아니구나"를 몸으로 깨달았습니다. 문서를 아무리 읽어도 체감이 안 됐던 개념이, 오류 한 번에 단번에 박혔습니다.사실 이 오류를 겪기 전까지 저는 "대충 글자 수 비슷하게 맞추면 되겠지"라고 생각하고 있었습니다. 이건 흔한 오해입니다. 그리고 이 오해는 개발 중 어느 시점에 반드시 문제로 터집니다. 저처럼 오류를 직접 맞닥뜨리거나, 아니면 예산이 예상을 훌쩍 넘어서는 청구서를 받고 나서야 깨닫게 됩니다.BPE와 토큰의 작동 원리AI 언어 모델은 텍스트를 문자 단위가 아닌 토큰(Token) 단위로 처리합니다. 토큰이란 단어 전체일 수도 있.. 2026. 5. 11. 이전 1 다음