임베딩 (Embedding) — 쉬운 기술 사전

의미를 숫자로 바꿔서 컴퓨터가 비교할 수 있게 만드는 방법이에요.

도시를 상상해 보세요. 모든 단어가 각자의 주소에 살고 있어요.

"개"와 "강아지"는 바로 옆집이에요. "개"와 "세금 신고서"는 도시 반대편에 살아서 마주칠 일이 없죠. 놀라운 건, 아무도 저 주소를 직접 정하지 않았다는 점이에요. 컴퓨터가 방대한 텍스트를 읽으면서 어떤 단어가 어떤 단어 근처에 자주 등장하는지 스스로 파악해 자리를 잡았어요.

그 주소가 바로 임베딩이에요. 텍스트 조각을 긴 숫자 목록으로 바꿔서 거대한 의미 지도 위의 한 지점에 꽂아두는 거예요. 지도의 핵심 원리는 거리입니다. 비슷한 의미일수록 가까이, 다른 의미일수록 멀리 자리해요.

컴퓨터는 개가 실제로 무엇인지 몰라요. 개를 쓰다듬어본 적도 없죠. 다만 "개"라는 점이 "강아지"와 가깝고 "세금 신고서"와 멀다는 건 알아요. 의미가 지리로 바뀐 거예요. 지리는 기계가 자로 잴 수 있으니까요.

기존 검색의 한계.

예전 검색은 글자를 맞췄어요. "개"를 입력하면 d-o-g라는 정확한 문자열을 찾아 돌려줬죠. 유용하긴 했지만 허점이 많았어요. "강아지가 소파를 씹는 걸 어떻게 막죠?"라고 검색하면, 글자 매칭 방식은 그 단어들을 그대로 찾아요. "강아지"와 "개"가 같은 존재라는 것도, 진짜 질문이 가구를 망가뜨리는 개에 관한 거라는 것도 모르는 거예요.

임베딩은 이 문제를 해결해요. 두 문장 모두 좌표로 변환되고, 의미가 같으니 같은 동네에 자리하게 돼요. 매칭 기준이 "같은 단어를 썼느냐"가 아니라 "같은 의미냐"로 바뀌는 거예요. 이게 핵심 도약이에요.

이미 쓰고 있었지만 이름을 몰랐던 것들.

이 단순한 원리가 평소에 쓰는 많은 기능을 돌려요.

의미를 이해하는 검색. 두루뭉술하게 설명해도 맞는 결과가 나오는 건 철자가 아니라 의미를 맞췄기 때문이에요.
추천 기능. "이것과 비슷한 것 더 보기"는 지도에서 가장 가까운 이웃을 가져오는 것에 불과해요.
자동 주제 분류. 지원 티켓 1,000건을 넘겨주면 "환불이 어디 있나요?" 묶음과 "앱이 계속 튕겨요" 묶음을 규칙 하나 없이도 알아서 나눠줘요.
내 문서를 기반으로 답하는 AI. 모델이 답하기 전에 파일에서 의미상 가장 관련 있는 조각을 찾아 집어넣어요. 어느 조각이 관련 있는지 판단하는 게 바로 임베딩이에요.

도서관을 떠올려 보세요. 책이 제목 가나다순이 아니라 내용으로 분류되어 있어요. 원예 책은 한 구석에 몰려 있고, 요리책은 맞은편에, 추리소설은 구석진 통로에 따로 있죠. 제목을 하나도 몰라도 괜찮아요. 해당 구역으로 걸어가면 주변이 전부 관련된 것들이니까요. 임베딩은 지금까지 쓰인 모든 문장에 이걸 자동으로, 사서 없이 해내요.

솔직한 한계도 알아두세요. 지도의 품질은 학습한 텍스트에 달려 있어요. 학습 데이터에 편향이 있으면 지도도 조용히 그 편향을 담게 돼요. 지도 위에서 가깝다는 건 "비슷한 맥락에 자주 등장한다"는 뜻이에요. 보통은 "같은 의미"와 일치하지만, 항상 그런 건 아니에요. 중요한 판단에 활용하기 전에 이 점을 인식하고 있는 게 좋아요.

의미를 좌표로 바꾸면, "비슷하다"는 감각이 기계가 측정할 수 있는 거리가 돼요.