가드레일 (Guardrails) — 쉬운 기술 사전

AI에게 일을 맡길 때 가장 두려운 건 원하지 않는 일을 저질러버리는 거잖아요. 가드레일은 그 가능성을 봉쇄하는 장치예요.

AI에게 작업을 맡길 때 가장 두려운 건 아주 낮은 확률로 원치 않는 일이 벌어지는 경우예요. 브랜드 이미지와 맞지 않는 말을 내뱉거나, 정보가 유출되거나, 낯선 사람의 지시를 따르거나, 해서는 안 될 행동을 취하는 것. 가드레일은 그 범위를 묶어두는 방법이에요.

가드레일은 AI의 행동을 안전한 범위 안에 묶어두기 위해 AI 주변에 설치하는 검사 장치입니다. 나쁜 입력이 모델에 닿기 전에 차단하고, 나쁜 출력이 사용자에게 닿기 전에 걸러내요. 모델은 엔진이에요. 가드레일은 그 엔진이 달릴 수 있는 차선이고요.

볼링장의 범퍼가 가장 명확한 그림이에요. 공(AI)은 여전히 스스로 굴러가요. 정확한 경로를 제어할 수는 없지만, 범퍼 덕분에 거터에 빠지기는 훨씬 어렵죠. 가드레일도 그렇게 작동해요. AI는 자유롭게 답할 수 있지만 특정 선을 넘지 못해요. 고객 서비스 챗봇에게 경쟁사 가격을 물어보면 가드레일이 막아요. 독성 발언을 유도하면 출력을 누군가 읽기 전에 가드레일이 잡아내고요.

가드레일은 모델의 양쪽에 위치해요. 입력 쪽에서는 AI에 닿는 내용을 걸러냅니다. 예를 들어 프롬프트 인젝션을 탐지하는데, 이건 기존 지시를 무시하고 대신 이걸 하라는 명령을 평범한 텍스트 안에 숨겨두는 수법이에요. 출력 쪽에서는 AI가 생성한 내용을 배포 전에 점검해서, 유출된 시크릿이나 금지된 주제가 고객 눈에 띄기 전에 차단해요.

시스템 프롬프트와 어떻게 다른지 분명히 해두는 게 좋아요. 시스템 프롬프트는 AI에게 어떻게 행동하라고 말하는 것, AI가 따르려고 노력하는 상시 지시예요. 가드레일은 그것만 믿지 않아요. 모델이 협조하든 안 하든 규칙을 강제하는 별도의 검사 장치죠. 하지 말라고 했다와 못 하게 만들었다는 안전의 차원이 다르기 때문이에요. 지시는 정중한 요청이에요. 가드레일은 자물쇠고요.

이건 에이전트에게 더 많은 권한을 줄수록 더 중요해져요. 챗봇이 잘못된 말을 하는 건 당혹스러운 일이에요. 이메일을 보내고, 돈을 이동하고, 파일을 삭제할 수 있는 에이전트에는 진짜 가드레일이 필요합니다. 실제로 허용된 행동의 범위를 강하게 제한해야 하고, 좋은 말로 쓴 지시에만 기대면 안 돼요. 원칙은 이래요. AI가 취할 수 있는 행동이 클수록, 정중하게 부탁하는 것에 덜 의존하고 잘못된 행동을 아예 막는 가드레일에 더 의존해야 합니다.

가드레일은 볼링장의 범퍼예요. AI는 여전히 스스로 굴러가지만, 범퍼는 거터에 빠지지 않도록 버티고 있어요. 지시는 잘 행동하기를 요청해요. 가드레일은 잘못 행동하지 못하도록 막아요. 그러라는 요청을 받더라도요.