처음 이걸 봤을 때 솔직히 묘한 기분이 들었어요. 작업을 지시했더니, 마우스가 혼자 움직이기 시작했거든요. 커서가 화면을 가로질러 버튼을 찾아 클릭했어요. 입력창에 타이핑하고, 스크롤했어요. 트랙패드에는 아무도 손대지 않은 채로요. 마치 유령이 내 노트북을 쓰는 광경 같았어요.
실제로 무슨 일이 벌어지는 건지 설명해 드릴게요.
보통 AI는 드라이브스루 창구를 통해 일을 처리해요. 앱이 주문할 수 있는 메뉴를 내걸면(이 주문을 가져와라, 이 이메일을 보내라), AI가 창구에 와서 주문하고 작업이 실행돼요. 깔끔하고, 빠르고, 안정적이에요. 그 창구가 API예요. 창구가 있으면 그 방법이 항상 나아요.
문제는 이거예요. 창구를 아예 만들지 않은 소프트웨어가 엄청나게 많아요. 오래된 사내 도구, 2009년에 마지막으로 업데이트된 것 같은 정부 포털, 벤더가 억지로 로그인하게 만드는 어색한 대시보드. 메뉴도, 창구도, 깔끔한 진입로도 없어요. 수십 년 동안 이런 소프트웨어 앞에서 AI는 손이 묶여 있었어요. 작업에 대해 이야기는 얼마든지 할 수 있어도, 실제로 건드릴 방법이 없었거든요.
컴퓨터 사용은 그 문제를 푸는 방법이에요. 주문할 창구가 없으면, AI가 그냥 정문으로 걸어 들어가 사람처럼 버튼을 눌러요.
구체적으로 무슨 뜻이냐면, AI가 하루 종일 아무 생각 없이 반복하는 그 세 가지 동작을 그대로 해요.
화면을 봐요. 스크린샷이 모델에 전달되고, 모델이 거기 있는 것을 읽어요. 버튼, 입력창, 메뉴, 구석의 작은 X 버튼까지요.
마우스를 움직이고 클릭해요. "제출 버튼이 아래쪽에 있다"고 판단하면, 커서를 그 좌표로 이동해서 클릭해요.
타이핑해요. 검색창, 로그인 입력란, 폼에요.
보고, 가리키고, 클릭하고, 타이핑해요. 그게 전부예요. 하루에 수천 번 반복하는 그 루프를 기계에 넘긴 거예요.
이 개념을 이해하는 데 도움이 되는 비유가 있어요. 화면을 볼 수 있고 마우스와 키보드를 직접 조작하는 원격 어시스턴트를 고용했다고 상상해 보세요. 특별한 프로그래밍 언어를 가르칠 필요도, 특수 권한을 줄 필요도 없어요. 그냥 모니터에 보이는 걸 보고 클릭해 나가는 거예요. 컴퓨터 사용은 바로 그 어시스턴트 역할을 AI가 하는 것이에요.
그렇다면 실제로 언제 쓰냐고요? 솔직히 말하면, 깔끔한 방법이 없을 때만 써요.
- 앱에 API가 있다면 → 창구를 이용해요. 더 빠르고, 비용도 적고, 잘못 클릭하지 않아요.
- 앱에 API가 없다면 → 컴퓨터 사용이 "어쩔 수 없이 손으로 한다"는 차선책이에요.
이 순서가 중요해요. 컴퓨터 사용은 느리고 어색한 방법이거든요.
왜 느리고 어색하냐면, 실제 사람이 웹사이트를 조작하는 것과 주방에 직통 전화를 거는 것의 속도 차이를 생각해 보면 돼요. 다섯 화면을 클릭해 넘어가는 데는 매번 실제 시간이 걸려요. 그리고 사람처럼 잘못 클릭하기도 해요. 버튼 하나를 다른 것으로 착각하거나, 원하는 항목을 스크롤로 지나치거나, 예상치 못한 팝업이 뜨면 길을 잃기도 하거든요. 처음 보는 사이트에서 어버버 하듯, AI도 화면 위에서 더듬거려요. 잘 맞출 때도 있고, 엉뚱한 파란 직사각형을 클릭할 때도 있어요.
그게 이 방법의 트레이드오프예요. 속도와 안정성을 내줘요. 대신 얻는 건 도달 범위예요. AI가 사람이 조작할 수 있는 거의 모든 것을 다룰 수 있게 되거든요. 깔끔한 진입로를 만들지 않은 소프트웨어 더미까지 포함해서요.
한 가지 명심할 게 있어요. 실제 세계에서 행동하는 에이전트 이야기에서 나온 것과 같은 주의예요. AI가 더 많이 건드릴 수 있을수록, 무엇에 손을 뻗는지 지켜봐야 해요. 메뉴에서 주문하는 도구는 메뉴에 적힌 것만 주문할 수 있어요. 실제 마우스와 키보드를 쥔 것은 이론적으로 화면의 무엇이든 클릭할 수 있고요. 그렇다고 쓰지 말아야 한다는 뜻은 아니에요. 새 어시스턴트에게 오후 전체를 맡기기 전에 한동안 어깨너머로 살펴보듯, 처음 몇 번은 커서를 눈으로 따라가 보세요.
창구가 있으면 AI는 메뉴에서 주문해요. 창구가 없으면 그냥 정문으로 걸어 들어가 버튼을 눌러요.