평가(Eval) / 벤치마크 (Eval / Benchmark)

한 AI가 다른 AI보다 낫다는 걸 어떻게 알 수 있을까요? 프롬프트를 바꿨을 때 실제로 나아진 건지, 아니면 조용히 더 나빠진 건지 확인하는 방법이에요.

한 AI가 다른 AI보다 낫다는 걸 어떻게 알 수 있을까요? 프롬프트를 수정했을 때 실제로 나아진 건지, 조용히 더 나빠진 건지는 또 어떻게 알 수 있을까요? 테스트를 해보면 알 수 있어요. 그 테스트에 이름이 있는데, 바로 eval이에요.

eval(evaluation의 줄임말)은 정답을 이미 알고 있는 문제들로 구성된 테스트 묶음이에요. 모델에게 이 문제들을 풀게 하고 얼마나 잘 답하는지 점수를 매기는 방식이죠. 벤치마크는 업계 전체가 공유하는 표준화된 eval로, 같은 기준으로 여러 모델을 비교할 수 있어요. eval은 일반적인 개념이고, 벤치마크는 업계 공통 시험이라고 보면 돼요.

일종의 성적표예요. 정답을 이미 아는 문제 1,000개를 쌓아놓고 모든 모델에게 똑같이 풀게 한 뒤 채점하는 거예요. 그러면 '이 모델이 더 똑똑하다'는 말이 막연한 느낌이 아니라 숫자가 돼요. 같은 시험에서 이쪽은 88점, 저쪽은 71점. AI 신제품 발표마다 등장하는 벤치마크 점수가 바로 이거예요. 공통 시험의 성적표죠.

실제로 유용한 건 공개 벤치마크보다 직접 만드는 eval이에요. 예를 들어 고객 지원 이메일을 분류하는 AI를 만들었다고 해볼게요. 실제 이메일 50개와 각각이 들어가야 할 카테고리를 적어두면 그게 eval이에요. 프롬프트를 손보거나, 모델을 바꾸거나, temperature를 조정할 때마다 그 50개를 다시 돌려서 점수가 올라갔는지 내려갔는지 확인하면 돼요. eval이 없으면 감에 의존해 '개선'하고 그냥 바라는 수밖에 없어요. 있으면 실제로 알 수 있죠.

이게 흔히 빠지는 함정도 막아줘요. 프롬프트를 고쳐서 거슬리던 케이스 하나가 해결됐다고 바로 배포하면, 다른 케이스 다섯 개가 조용히 망가진 걸 모를 수 있어요. eval이 그걸 잡아줘요. '나는 더 나아진 것 같다'와 '같은 50개에서 매번 더 높은 점수가 나왔다'의 차이예요.

한 가지 주의할 점이 있어요. 유명 벤치마크에서 고득점을 받도록 의도적으로, 혹은 의도치 않게 훈련된 모델이 실제 성능은 별반 다르지 않을 수 있거든요. 특정 시험만 집중해 벼락치기 한 학생이 정작 아무것도 기억하지 못하는 것과 같아요. 헤드라인 벤치마크 점수는 대략적인 신호 정도로 보고, 자신의 실제 작업으로 만든 eval을 훨씬 더 신뢰해야 해요. 중요한 테스트는 자신의 실제 업무에서 만든 것이에요.

eval은 좋은 답이 어떤 모습인지 알고 있는 채점 가능한 테스트예요. 벤치마크는 모두가 공유하는 표준 버전이고요. 실제 사례로 직접 만들면 AI를 감이 아닌 점수로 개선할 수 있어요.