최악의 버전은 이미 아실 거예요. 회사에 전화하면 로봇이 받고, 지옥이 시작돼요. "청구 관련은 1번, 기타 문의는 2번..." 상담원을 연결하려고 0을 백 번 눌러도, 그 밋밋하고 명랑한 목소리는 같은 메뉴만 읽어요. 바로 그 전화 메뉴 트리를 없애는 것이 음성 에이전트예요.
차이는 여기에 있어요. 전화 메뉴 트리는 목소리가 달린 자판기예요. 버튼 아홉 개가 전부고, 메뉴를 벗어나면 아무것도 이해하지 못해요.
음성 에이전트는 메뉴를 읽지 않아요. 실제로 일을 처리할 수 있는 에이전트(단순 대화가 아니라 행동하는 AI)에 두 가지를 더한 거예요.
- 귀. 말을 듣고 텍스트로 변환해요.
- 입. 답변을 다시 목소리로 바꿔 소리 내어 말해요.
그 사이에서 평소 타이핑으로 쓰던 것과 같은 두뇌가 작동해요. 말을 하면 이해하고, 행동하고, 다시 말로 답해요. 타이핑도, 화면도, 메뉴도 없어요. 실시간으로 목소리만 오가는 거죠.
드라이브스루 스피커를 떠올려 보세요. 단, 그 목소리가 직접 일을 처리해요.
보통은 스피커 너머 직원이 주문을 받고, 주방이 따로 음식을 만들잖아요. 음성 에이전트는 스피커와 주방과 계산대가 하나로 합쳐진 거예요. 원하는 것을 말하면 이런 일들을 할 수 있어요.
- 지난 방문 기록 조회
- 이미 넣은 주문 변경
- 실제 재고 확인
- 결제 처리
모든 과정을 사람처럼 대화하면서 진행해요. 각 단계마다 번호를 누를 필요가 없어요.
핵심은 말을 할 수 있다는 게 아니에요. 말하는 로봇은 이미 많으니까요. 사람과 대화하는 것처럼 느껴지려면 세 가지가 동시에 갖춰져야 해요.
속도. 문장을 끝냈는데 긴 침묵이 흐르면, 그 순간 마법이 깨져요. 대화처럼 느껴지려면 팩스를 기다리는 것이 아니라 실제로 이야기하는 속도로 답이 와야 해요.
끊어 말하기. 실제 대화는 지저분해요. 중간에 끼어들고, 말하다 마음이 바뀌고, "아니 잠깐, 다른 걸로요"라고 하죠. 좋은 음성 에이전트는 상대가 말을 시작하는 순간 즉시 멈춰요. 예의 바른 사람처럼요. 나쁜 에이전트는 상대가 말하는 위에서 스크립트를 계속 읽어요.
실제로 처리하기. 이게 핵심이고, 가장 흉내 내기 쉬운 척하는 부분이에요. 친절하게 말하는 건 쉬워요. 실제로 무언가를 하는 것(주문 조회, 항공편 재예약, 환불 처리)은 드라이브스루 창문 너머로 실제 소프트웨어에 손을 뻗는 일이에요. 듣기에는 좋지만 아무것도 건드리지 못하는 목소리는 그냥 더 고급스러운 대기 음악일 뿐이에요.
세 번째 이유 때문에 이건 챗봇이 아니라 에이전트예요. 할 수 있는 일을 안내하는 게 아니라, 대화가 이루어지는 동안 직접 실행해요.
이미 마주치지 않으셨다면, 곧 만나게 될 곳들이에요.
- 메뉴를 40분 누르는 대신, 상황을 설명하는 동안 항공편을 재배정하는 항공사 전화.
- 원하는 것을 그냥 말하면 예약을 잡고, 바꾸고, 취소하는 병원 접수.
- 조용히 사람이 아니게 된 드라이브스루 스피커.
솔직한 주의사항도 있어요. 음성 에이전트는 어떤 모델과도 마찬가지로 자신 있게 틀릴 수 있어요. 화면에 남는 내용이 없어 다시 확인하기도 더 어려워요. 잘 만들어진 에이전트는 자신이 처리할 수 없는 요청이 들어오는 순간 사람에게 넘겨요. 그 인계는 실패가 아니에요. 엉뚱한 도시로 자신 있게 항공편을 예약하지 않도록 막는 기능이에요.
1번 누르기는 끝났어요. 그냥 말하면 돼요.