
인공지능(AI) 언어모델 ‘GPT-5’에 대해 ‘실패작’이라는 평가가 나오는 가운데, 오픈AI는 AI 언어모델의 고질적인 문제인 '환각(hallucination)'의 원인과 해결 방안을 공개했다. 다만 가장 뛰어난 모델에서도 여전히 높은 환각률을 나타나고 있는 점을 본 시장은 AI 모델의 정확성 향상이 한계에 직면했다고 평가하고 있다.
7일 IT업계에 따르면 오픈AI는 전날 ‘언어 모델이 환각을 겪는 이유’라는 보고서를 통해 GPT-5의 SimpleQA 벤치마크 결과를 공개했다.
SimpleQA는 AI의 사실적 답변 능력을 평가하는 도구로, GPT-5는 이 평가에서 정확도 22%, 환각률(오답률) 26%, 답변 포기율(불확실성 인정) 52%를 기록했다. 반면 이전 모델인 o4-mini는 정확도 24%, 환각률 75%, 답변 포기율 1%로 나타났다.
GPT-5는 환각률을 크게 줄였지만, 답변 포기율이 높아진 점이 눈에 띈다. 이는 모델이 불확실한 질문에 대해 "모른다"고 답하는 방식을 택해 오답을 줄인 결과로 해석된다.
오픈AI는 "환각률 0%는 불가능하다"고 단언하며, 일부 질문은 정보 부족이나 모호성으로 인해 답변 자체가 불가능하다고 밝혔다.
보고서는 환각의 주요 원인으로 현재의 평가 방식을 지목했다. 대부분의 벤치마크는 정확도만을 기준으로 모델을 평가, 불확실성을 인정하는 대신 추측을 유도한다. 이는 마치 객관식 시험에서 정답을 모를 때 찍기를 선택하는 것과 유사하다. 예를 들어 모델이 생일을 묻는 질문에 "9월 10일"이라고 추측하면 365분의 1 확률로 맞을 수 있지만, "모른다"고 답하면 점수를 받지 못한다. 이로 인해 모델은 신중함 대신 과감한 추측을 학습한다.
오픈AI는 이를 해결하기 위해 평가 방식을 개선해야 한다고 제안했다. 오답에 더 큰 페널티를 부여하고, 불확실성을 인정하는 답변에 부분 점수를 주는 방식이다. 이는 이미 일부 표준화된 시험에서 사용되는 '오답 감점'과 유사하다. 오픈AI는 이러한 변화가 환각을 줄이는 기술의 채택을 가속화할 것이라고 전망했다.
업계는 오픈AI의 이 같은 설명이 AI 기술의 현재 한계를 보여준다고 평가했다. 최근 글로벌 빅테크 기업들이 LLM 신제품 출시를 주저하는 배경에도 이러한 기술적 한계가 있다. 시장에서는 AI 성능 정체가 'AI 버블' 붕괴로 이어질 수 있다는 우려가 제기되고 있다. 특히, AI 환각으로 인한 오작동 사례가 늘면서, 기업들은 AI 도입을 신중히 검토하고 있다.
AllAboutAI 보고서에 따르면, AI 환각으로 인한 기업 손실은 지난해 한 해에만 674억 달러에 달했다. 또한 가트너에 따르면 35% 이상의 기업이 LLM 사용 중 환각 문제를 경험했으며, 60%의 경영진이 AI 신뢰성을 최우선 과제로 꼽았다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지