오랫동안 AI 모델은 텍스트만 읽고 쓸 수 있었어요. 글자 입력, 글자 출력. 눈도 귀도 없이 글만 주고받는 천재 펜팔 상대였죠. 멀티모달은 더 이상 그렇지 않은 모델을 가리키는 말이에요.
멀티모달 모델은 텍스트뿐 아니라 이미지, 오디오, 동영상 등 여러 형태의 입력을 받아들이고, 때로는 그런 형태로 출력도 할 수 있는 모델이에요. 'Modal'은 '방식(mode)'을 뜻해요. 텍스트가 하나의 방식이에요. 사진을 보거나 소리를 듣는 능력이 추가되면 멀티모달이 되는 거죠.
감각으로 비유하면 이해하기 쉬워요. 예전의 텍스트 전용 모델은 읽기 하나만 할 수 있었어요. 멀티모달 모델은 그보다 많이 할 수 있어요. 붙여넣은 사진을 보고 설명하고, 스크린샷을 읽고, 영수증에서 숫자를 뽑고, 짧은 동영상을 보고, 음성 메모를 들어요. 다음 토큰을 예측한다는 기본 원리는 같아요. 달라진 건 입력이 타이핑된 글자에만 국한되지 않는다는 점이에요.
추상적이지 않게 실제 사례를 들면 이렇습니다. Claude는 같은 메시지 안에 텍스트와 이미지를 함께 받을 수 있어서 스크린샷이나 PDF를 그대로 넘기고 질문할 수 있어요. Google Gemini는 입력 범위가 더 넓어서 오디오와 동영상도 받아요. GPT-4o는 음성을 네이티브로 처리한 최초의 모델로, 별도의 전사기와 음성 합성기를 텍스트 모델에 덧붙이는 대신 듣고 말하기를 한 단계에서 처리했어요. 그 덕분에 AI와 자연스러운 음성 대화가 가능해졌죠. 정확한 조합은 모델마다 다르고 빠르게 바뀌지만, 방향은 하나예요. 텍스트만이 아니라 무엇이든 받아들이는 쪽으로요.
이것이 만들 수 있는 것을 조용히 바꾸는 이유가 있어요. 모델이 볼 수 있게 되는 순간, "이 계약서 읽어줘," "이 디자인 어디가 이상해," "이 인보이스 사진에서 항목 뽑아줘," "이 영상에서 무슨 일이 벌어지고 있어"가 전부 그냥 물어볼 수 있는 일이 돼요. 이미지 안에 뭐가 있는지 일일이 설명하는 대신 이미지 자체를 넘기면 되거든요. 비개발자 입장에서 이건 꽤 큰 변화예요. 현실에서 다루는 것들은 깔끔한 텍스트가 아니에요. 스크린샷, PDF, 사진, 녹음 파일이죠.
비용과 관련해 알아두면 좋은 점이 하나 있어요. 모델에 이미지나 오디오를 넣는 건 공짜가 아니에요. 측정되고 과금돼요. 종종 생각보다 많은 토큰으로 환산되기도 해요. 그래서 상세한 이미지 하나를 "보는" 비용이 문단 하나를 읽는 비용보다 비쌀 수 있어요. 수천 장의 사진을 파이프로 흘리기 전에 알아두어야 할 부분이에요.
멀티모달은 모델이 하나 이상의 감각을 갖게 됐다는 뜻이에요. 읽기만이 아니라 보고, 때로는 듣기도 해요. 실용적인 변화는 단순해요. 스크린샷, 계약서, 사진을 설명하려 하지 말고 그냥 넘기세요.