
황윤구 LG CNS 어드벤스드젠AI 팀장은 지난 1일 서울 강서구 LG CNS 사옥에서 진행한 인터뷰에서 이같이 말했다.
LG CNS는 지난 2월 생성형 AI를 도입하고자 하는 금융 기업을 위해 금융 맞춤형 AI 평가도구를 개발했다. 이 평가도구는 미리 구축한 데이터셋으로 시중에 공개한 수십개의 개방형 LLM을 평가해 뱅킹, 보험, 증권 등 각 금융 서비스에 가장 적합한 AI 모델을 찾아준다. 1200개의 데이터셋을 기반으로 29가지의 평가 지표로 구성돼 있다.
LG CNS는 금융사들이 LLM 도입시 겪게 될 할루시네이션(환각)을 최소화하기 위해 노력했다. 황 팀장은 "금융사는 LLM이 잘못 답변을 했을 때 가장 리스크가 큰 회사"라면서 "공개돼있는 LLM 99% 영어고 한국어는 0.8% 정도로 일반적인 한국어 답변은 괜찮지만 금융 용어는 답변을 이상하게 하는 문제가 존재했다"고 설명했다.
LG CNS는 LLM 평가 기준에 '할루시네이션 제어' 항목을 넣어 평가 도구의 정확도를 높였다. LLM에게 한 금융 용어에 대해 '모른다'고 답해야 하는 상황을 주었을 때 LLM이 이를 얼마나 제대로 답했는지 수치화 한다.
LG CNS의 평가 도구의 특징은 각 사업 부문별 가장 적합한 LLM을 찾아주는데 있다. LLM의 역할이 추론과 대화형으로 나뉘는 상황에서 어느 사업 조직에서 어떤 LLM이 대답을 잘할 수 평가 도구를 통해 파악할 수 있다는 이야기다.
황 팀장은 "고객사가 만약 추론형 LLM을 채택하고 이를 많은 사용자가 사용한다면 그래픽처리장치(GPU)의 사용량이 급격하게 늘어날 것"이라며 "자사 평가 도구에 어떤 사업에 대화형 LLM이 맞는지 추론형 LLM이 맞는지, LLM의 이미지 생성 기능은 필요한지 아닌지 등을 빠르게 파악할 수 있는 기준도 마련돼 있다"고 했다.
LG CNS 어드벤스드젠AI 팀은 올해 이 평가도구의 활용 확대에 중점을 두고 있다. 황 팀장은 "올해 상반기 내로 더 많은 평가 기준을 구축한 후 하반기에는 상용화를 목표로 하고 있다"고 했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지