칼럼 | 적절한 의도와 잘못된 주체...오픈AI ‘심플QA’의 한계

수많은 CIO가 반짝이는 새로운 생성형 AI 툴에서 의미 있는 ROI를 산출하려고 지속적이고 잠재적으로 헛된 노력을 한다. 이런 노력에서 가장 큰 장애물은 ‘환각’ 현상이다. 생성형 AI가 내놓은 분석의 유효성과 유용성을 심각하게 고민하게 만드는 것이 바로 환각이기 때문이다. 이런 관점에서 오픈AI가 생성형 AI 툴의 객관적 정확성을 판단하기 위한 테스트를 시도한 점은 환영할 만하다. 하지만 심플QA(SimpleQA)라는 이름의 노력은 2가지 측면에서 기업 기술 의사결정권자에게 실망을 안긴다. 첫째, 오픈AI는 생성형 AI의 알고리즘의 정확성을 판단하는 데 있어 CIO가 신뢰할 수 있는 최후의 주체다. 다른 산업에 비유하면 월마트, 타깃, 아마존이 제작한 쇼핑 사이트 추천 앱과 토요타 혹은 GM이 만든 자동차 평가 툴을 얼마나 신뢰할 수 있을까? 둘째, 심플QA는 지나치게 단순한 문제에 초점을 맞춘다. 이 테스트는 단 하나의 정답만 존재하는 명확하고 단순한 질문에만 집중한다. 더 중요한 점은 이런 질문에 대한 답은 툴 없이도 쉽게 검증하고 결정할 수 있다는 점이다. 대부분 기업이 생성형 AI 기술을 활용하고자 하는 방식과는 거리가 멀다. 예를 들어, 엘리 릴리(Eli Lilly)와 화이자(Pfizer)는 새로운 질병 치료용 약물 조합을 찾기 위해 AI를 사용하고자 한다. 나중에 치료법을 테스트한 결과 생성형 AI의 답변이 틀린 것이 드러나면 많은 노력을 낭비하는 셈이다. 코스트코(Costco)와 월그린(Walgreens)는 새로운 매장을 열기 위한 가장 수익성 높은 위치를 찾고자 하고, 보잉(Boeing)은 더 효율적인 항공기 제작 방식을 구상하기를 원한다.심플QA, 무엇이 문제인가?우선 오픈AI가 발표한 내용을 살펴보자. 오픈AI 문서에서 발췌한 내용을 보고, 회사의 의견을 더 나은 맥락으로 해석해본다.“AI가 아직 해결하지 못한 문제는 사실에 맞는 응답을 생성하는 모델을 훈련하는 방법을 알아내는 것이다”. 이를 해석하면, “가끔이라도 정답을 맞히는 AI 모델을 만드는 것이 좋겠다고 생각했다”라는 의미다. “더 정확한 응답과 환각이 더 적은 언어 모델은 더 신뢰할 수 있고 더 광범위한 애플리케이션에 사용될 수 있다.” 즉, “우리를 히피라고 불러도 좋지만, 브레인스토밍을 통해 제품이 실제로 작동하면 수익을 개선할 수 있다는 결론을 내렸다”라는 뜻이다. 다소 경박한 표현은 제쳐두고, 오픈AI가 구체적인 정답을 확인할 수 있는 기본적인 방법으로 생성형 AI의 정확성을 평가하려는 선의의 노력을 기울였다는 점은 인정해야 한다. 하지만 직접 제작하기보다는 신뢰할 수 있는 제3의 컨설팅 또는 분석 기관에 이를 의뢰하고, 오픈AI의 개입을 최소화했다면 더 신뢰를 받을 수 있었을 것이다. 심플QA가 실용성이 없는 이유그래도 없는 것보다 있는 것이 낫기 때문에 오픈AI의 말을 들어본다. 오픈AI는 심플QA를 다음과 같이 설명했다. “심플QA는 모델이 ‘알고 있는 것을 알고’ 답변을 제공하는지 평가하는 간단하고 목표 지향적인 툴이다. 명확한 하나의 정답이 존재하는 질문으로 구성되며, 각 답변은 ‘정답’, ‘오답’, ‘시도하지 않음’ 중 하나로 평가된다. 이상적인 동작을 하는 모델은 정답을 알고 있다고 확신할 수 없는 문제는 시도하지 않으면서 가능한 한 많은 문제를 정답으로 맞힐 것이다.”이런 접근 방식이 왜 효과가 있는지(혹은 ‘있을 것 같은지’) 생각해보면, 도움이 되지 않는 이유가 분명해진다. 심플QA는 모델이 이런 질문에 정확하게 답할 수 있다면 다른 질문에도 동일한 정확도로 답할 수 있을 것이라고 가정한다. 그리고 이런 가정에는 심각한 결함이 있다. 생성형 AI는 1만 개의 질문에 정확히 답하다가도, 그다음 50개 질문에서는 환각을 일으킬 수 있다. 환각은 예측 가능성이 전혀 없이 무작위로 발생하기 때문에 심플QA의 테스트는 적합하지 않다. 계산기 같은 툴에서는 작동할 수 있다. 조금 더 구체적으로 말하자면, 생성형 AI 툴이 심플QA의 모든 답을 맞힌다면 의미가 없을 것이다. 하지만 그 반대는 사실이 아니다. 필자가 테스트한 모델이 심플QA 테스트의 전부 혹은 대부분을 틀린다면, 이 모델은 IT팀에 상당한 시사점을 준다. 기술 관점에서 보면 테스트가 불공평해 보인다. A를 받으면 무시된다. F를 받으면 믿게 된다. 영화 워게임(The War Game)에서 AI 프로그램 조슈아가 말했듯이 “유일한 승리는 게임을 하지 않는 것”이다. 오픈AI도 이런 문제를 인정하고 있다. 문서에서 “이 연구에서 오픈AI는 언어 모델의 개방성을 회피하기 위해 단일 답변이 존재하는 짧은, 사실 지향적인 질문만 고려했다. 범위를 축소한 것이 중요한 이유는 사실성을 측정하는 작업을 훨씬 더 잘 다룰 수 있기 때문이다. 하지만 이로 인해 짧은 사실성에 대한 개선이 긴 형식의 사실성으로 일반화될 수 있는지가 여전히 미해결로 남는다”라고 밝혔다. 또한 문서 후반부에서 오픈AI는 “심플QA의 가장 큰 한계는 명확하다. 하나의 검증 가능한 답변이 있는 짧은 사실 지향형 쿼리라는 제한된 설정에서만 사실성을 측정한다는 점이다. 사실에 입각한 짧은 답변을 제공하는 능력이 수많은 사실로 채워진 긴 답변을 작성하는 능력과 상관관계가 있는지는 아직 연구 중이다”라고 덧붙였다. 심플QA는 4,326개의 “짧고 사실을 묻는 질문”으로 구성돼 있다.기업에서의 실질적인 한계심플QA 테스트의 또 다른 구성 요소는 답변 작성자가 아닌 질문 작성자가 더 큰 책임을 진다는 점이다. 예를 들어, “버락과 미셸 오바마가 만난 장소는 어디인가?”와 같은 질문에 대한 답은 ‘시카고’ 또는 ‘법률 회사 시들리 앤 오스틴(the law firm Sidley & Austin)이 모두 가능하다. 따라서 질문자는 “어느 도시에서” 또는 “어느 회사에서”와 같이 범위를 명확히 지정해야 한다. 비슷한 예로 단순히 ‘언제’라고 묻는 대신 ‘몇 년도’ 또는 ‘몇 월 며칠”이라고 물어야 한다. 이런 방식은 기업 환경에서는 실용성이 떨어진다. 기업 사용자는 질문을 명확하게 정의하지 않는다. “자연어로 질문하면 시스템이 알아서 문맥을 통해 의미를 파악한다”라는 약속을 믿고 도입했기 때문이다. 심플QA 테스트는 이런 점을 고려하지 않는다. 환각 현상은 그 특성상 정량화할 방법이 없다. 예측 가능하다면, IT팀은 매 75번째 응답을 무시하도록 툴을 프로그래밍하면 된다. 하지만 현재로서는 불가능한 일이다. 환각을 완전히 제거할 방법이 나오기 전까지는 신뢰할 수 없는 답변 문제는 지속될 것이다[email protected]

수많은 CIO가 반짝이는 새로운 생성형 AI 툴에서 의미 있는 ROI를 산출하려고 지속적이고 잠재적으로 헛된 노력을 한다. 이런 노력에서 가장 큰 장애물은 ‘환각’ 현상이다. 생성형 AI가 내놓은 분석의 유효성과 유용성을 심각하게 고민하게 만드는 것이 바로 환각이기 때문이다.

이런 관점에서 오픈AI가 생성형 AI 툴의 객관적 정확성을 판단하기 위한 테스트를 시도한 점은 환영할 만하다. 하지만 라는 이름의 노력은 2가지 측면에서 기업 기술 의사결정권자에게 실망을 안긴다. 첫째, 오픈AI는 생성형 AI의 알고리즘의 정확성을 판단하는 데 있어 CIO가 신뢰할 수 있는 최후의 주체다.

다른 산업에 비유하면 월마트, 타깃, 아마존이 제작한 쇼핑 사이트 추천 앱과 토요타 혹은 GM이 만든 자동차 평가 툴을 얼마나 신뢰할 수 있을까? 둘째, 심플QA는 지나치게 단순한 문제에 초점을 맞춘다. 이 테스트는 단 하나의 정답만 존재하는 명확하고 단순한 질문에만 집중한다. 더 중요한 점은 이런 질문에 대한 답은 툴 없이도 쉽게 검증하고 결정할 수 있다는 점이다.

대부분 기업이 생성형 AI 기술을 활용하고자 하는 방식과는 거리가 멀다. 예를 들어, 엘리 릴리(Eli Lilly)와 화이자(Pfizer)는 새로운 질병 치료용 약물 조합을 찾기 위해 AI를 사용하고자 한다. 나중에 치료법을 테스트한 결과 생성형 AI의 답변이 틀린 것이 드러나면 많은 노력을 낭비하는 셈이다.

코스트코(Costco)와 월그린(Walgreens)는 새로운 매장을 열기 위한 가장 수익성 높은 위치를 찾고자 하고, 보잉(Boeing)은 더 효율적인 항공기 제작 방식을 구상하기를 원한다. 심플QA, 무엇이 문제인가? 우선 오픈AI가 발표한 내용을 살펴보자. 오픈AI 문서에서 발췌한 내용을 보고, 회사의 의견을 더 나은 맥락으로 해석해본다.

“AI가 아직 해결하지 못한 문제는 사실에 맞는 응답을 생성하는 모델을 훈련하는 방법을 알아내는 것이다”. 이를 해석하면, “가끔이라도 정답을 맞히는 AI 모델을 만드는 것이 좋겠다고 생각했다”라는 의미다. “더 정확한 응답과 환각이 더 적은 언어 모델은 더 신뢰할 수 있고 더 광범위한 애플리케이션에 사용될 수 있다.

” 즉, “우리를 히피라고 불러도 좋지만, 브레인스토밍을 통해 제품이 실제로 작동하면 수익을 개선할 수 있다는 결론을 내렸다”라는 뜻이다. 다소 경박한 표현은 제쳐두고, 오픈AI가 구체적인 정답을 확인할 수 있는 기본적인 방법으로 생성형 AI의 정확성을 평가하려는 선의의 노력을 기울였다는 점은 인정해야 한다. 하지만 직접 제작하기보다는 신뢰할 수 있는 제3의 컨설팅 또는 분석 기관에 이를 의뢰하고, 오픈AI의 개입을 최소화했다면 더 신뢰를 받을 수 있었을 것이다.

심플QA가 실용성이 없는 이유 그래도 없는 것보다 있는 것이 낫기 때문에 오픈AI의 말을 들어본다. 오픈AI는 심플QA를 다음과 같이 설명했다. “심플QA는 모델이 ‘알고 있는 것을 알고’ 답변을 제공하는지 평가하는 간단하고 목표 지향적인 툴이다.

명확한 하나의 정답이 존재하는 질문으로 구성되며, 각 답변은 ‘정답’, ‘오답’, ‘시도하지 않음’ 중 하나로 평가된다. 이상적인 동작을 하는 모델은 정답을 알고 있다고 확신할 수 없는 문제는 시도하지 않으면서 가능한 한 많은 문제를 정답으로 맞힐 것이다.” 이런 접근 방식이 왜 효과가 있는지(혹은 ‘있을 것 같은지’) 생각해보면, 도움이 되지 않는 이유가 분명해진다.

심플QA는 모델이 이런 질문에 정확하게 답할 수 있다면 다른 질문에도 동일한 정확도로 답할 수 있을 것이라고 가정한다. 그리고 이런 가정에는 심각한 결함이 있다. 생성형 AI는 1만 개의 질문에 정확히 답하다가도, 그다음 50개 질문에서는 환각을 일으킬 수 있다.

환각은 예측 가능성이 전혀 없이 무작위로 발생하기 때문에 심플QA의 테스트는 적합하지 않다. 계산기 같은 툴에서는 작동할 수 있다. 조금 더 구체적으로 말하자면, 생성형 AI 툴이 심플QA의 모든 답을 맞힌다면 의미가 없을 것이다.

하지만 그 반대는 사실이 아니다. 필자가 테스트한 모델이 심플QA 테스트의 전부 혹은 대부분을 틀린다면, 이 모델은 IT팀에 상당한 시사점을 준다. 기술 관점에서 보면 테스트가 불공평해 보인다.

A를 받으면 무시된다. F를 받으면 믿게 된다. 영화 워게임(The War Game)에서 AI 프로그램 조슈아가 말했듯이 “유일한 승리는 게임을 하지 않는 것”이다.

오픈AI도 이런 문제를 인정하고 있다. 문서에서 “이 연구에서 오픈AI는 언어 모델의 개방성을 회피하기 위해 단일 답변이 존재하는 짧은, 사실 지향적인 질문만 고려했다. 범위를 축소한 것이 중요한 이유는 사실성을 측정하는 작업을 훨씬 더 잘 다룰 수 있기 때문이다.

하지만 이로 인해 짧은 사실성에 대한 개선이 긴 형식의 사실성으로 일반화될 수 있는지가 여전히 미해결로 남는다”라고 밝혔다. 또한 문서 후반부에서 오픈AI는 “심플QA의 가장 큰 한계는 명확하다. 하나의 검증 가능한 답변이 있는 짧은 사실 지향형 쿼리라는 제한된 설정에서만 사실성을 측정한다는 점이다.

사실에 입각한 짧은 답변을 제공하는 능력이 수많은 사실로 채워진 긴 답변을 작성하는 능력과 상관관계가 있는지는 아직 연구 중이다”라고 덧붙였다. 심플QA는 4,326개의 “짧고 사실을 묻는 질문”으로 구성돼 있다. 기업에서의 실질적인 한계 심플QA 테스트의 또 다른 구성 요소는 답변 작성자가 아닌 질문 작성자가 더 큰 책임을 진다는 점이다.

예를 들어, “버락과 미셸 오바마가 만난 장소는 어디인가?”와 같은 질문에 대한 답은 ‘시카고’ 또는 ‘법률 회사 시들리 앤 오스틴(the law firm Sidley & Austin)이 모두 가능하다. 따라서 질문자는 “어느 도시에서” 또는 “어느 회사에서”와 같이 범위를 명확히 지정해야 한다. 비슷한 예로 단순히 ‘언제’라고 묻는 대신 ‘몇 년도’ 또는 ‘몇 월 며칠”이라고 물어야 한다.

이런 방식은 기업 환경에서는 실용성이 떨어진다. 기업 사용자는 질문을 명확하게 정의하지 않는다. “자연어로 질문하면 시스템이 알아서 문맥을 통해 의미를 파악한다”라는 약속을 믿고 도입했기 때문이다.

심플QA 테스트는 이런 점을 고려하지 않는다. 환각 현상은 그 특성상 정량화할 방법이 없다. 예측 가능하다면, IT팀은 매 75번째 응답을 무시하도록 툴을 프로그래밍하면 된다.

하지만 현재로서는 불가능한 일이다. 환각을 완전히 제거할 방법이 나오기 전까지는 신뢰할 수 없는 답변 문제는 지속될 것이다. dl-ciokorea@foundryco.

com.