쉬운·기술사전비유로 이해하는 AI·개발 용어
AI는 어떻게 작동하는가

인퍼런스

Inference

AI를 쓰다 보면 이 단어를 사방에서 듣게 돼요.

인퍼런스 개념 다이어그램

AI를 쓰다 보면 이 단어를 사방에서 듣게 돼요. 인퍼런스, 인퍼런스, 인퍼런스. 오랫동안 고개를 끄덕이면서도 실제로 무슨 뜻인지 몰랐던 분들 많으실 거예요. 평범한 말로 설명하면 이렇습니다. AI에게 메시지를 보내고 답이 돌아오는 그 순간마다, 우리는 누군가 이미 지어놓은 다리를 건너기 위해 통행료를 내는 거예요. 그 통행료가 인퍼런스이고, AI 요금 청구서의 대부분은 바로 이것으로 이루어져 있어요.

모델을 만드는 일은 다리를 놓는 일이에요. 엄청난 규모에 시간도 오래 걸리고, 우리가 오기 훨씬 전에 만든 사람이 선불로 치릅니다. 모델은 방대한 텍스트를 먹고 값비싼 칩들로 가득 찬 방에서 몇 주에 걸쳐 조율돼요. 그게 학습이에요. 인퍼런스는 그 이후의 모든 것이에요. 완성된 다리를 한 번 건너기 위해 작은 통행료를 내는 일. AI와 대화할 때 다리는 이미 오래전에 완성되어 있어요. 우리가 보내는 메시지 하나하나가 곧 한 번의 통행이에요.

사람들이 흔히 거꾸로 이해하는 부분이 여기에요. AI에서 비싼 부분은 다리, 즉 크고 똑똑한 모델이라고 생각하죠. 하지만 만드는 사람 입장에서 그 부분은 이미 누군가가 지불한 거예요. 우리가 매일 내는 비용은 통행료예요. 한 번 더 건너는 값. API 호출 하나, 에이전트가 내딛는 단계 하나, 재시도 한 번이 모두 탭에 쌓이는 통행료예요. 그리고 건너는 짐이 무거울수록 통행료도 올라가요. 토큰은 모델이 읽고 쓰는 작은 벽돌 단위예요. 긴 답변은 그냥 벽돌이 더 많은 것이에요. 더 무거운 트럭이 다리를 건너는 거니까 비용도 더 들고 시간도 더 걸려요. 글자가 한 번에 하나씩 흘러 나오는 이유도 여기에 있어요. 트럭이 건너는 걸 보고 있는 거예요.

이렇게 생각하면 예전에는 뜬금없어 보이던 것들이 갑자기 이해돼요. "이 AI 호출을 천 번 반복해"라는 문장은 잠깐 멈추고 생각해볼 만해요. 그게 통행료 천 번이니까요. 프롬프트 캐싱이 돈을 아끼는 이유는 한 덩어리를 한 번 읽는 비용만 내고, 이후 통행에서는 싼 값에 재사용하기 때문이에요. 레이트 리밋은 그냥 다리가 1분에 허용하는 통행 횟수를 제한하는 거예요.

마지막으로 하나 더 명확해지는 게 있어요. AI가 느리다는 느낌이 들 때, 그건 대부분 건너는 과정 자체가 시간을 잡아먹는 거예요. 토큰을 하나씩 쌓아가는 일. 모델이 "더 열심히 생각하는" 게 아니에요. 그리고 AI가 거의 매달 더 싸고 빨라진다면, 그 이유의 상당 부분은 통행료가 내려가는 것이지 새 다리가 생기는 게 아니에요. 다리는 짓기 어렵고 비싸요. 통행료는 계속 내려가고요. 그리고 실제로 우리가 내는 비용은 바로 그 통행료예요.

모델 학습은 다리를 놓는 일이에요. 엄청나고 느리고 한 번만 치러요. 인퍼런스는 AI를 쓸 때마다 매번 내는 통행료예요.