오픈AI, 음성 모델·API 정식 출시… 대화 이해도·인식 정확도 개선

샘 올트먼 오픈AI CEO가 지난 2월 서울 중구 더 플라자 호텔 서울에서 열린 카카오 미디어데이 에서 발언하고 있다 사진아주경제 DB
샘 올트먼 오픈AI CEO가 지난 2월 서울 중구 더플라자호텔서울에서 열린 '카카오 미디어데이 '에서 발언하고 있다. [사진=아주경제 DB]

오픈AI가 실시간 음성 기반 인공지능 모델과 API의 정식 버전을 공개했다. 개발자는 해당 기능을 고객지원, 음성 통화, 다국어 안내 시스템 등에 바로 적용할 수 있다.
 
오픈AI는 지난 29일 공식 블로그를 통해 음성 대화 모델 ‘gpt-리얼타임’과 함께 API를 정식 출시했다고 밝혔다. 이 모델은 음성 입력을 인식하고, 자연스럽게 음성으로 응답하며, 데이터 호출까지 처리할 수 있는 구조다. 지난해 10월 프리뷰 형태로 처음 공개됐고, 이후 여러 차례 개선을 거쳐 정식 버전으로 전환됐다.
 
gpt-리얼타임은 고객 응대 통화에서 면책 문구를 빠짐없이 읽어주거나, 숫자나 영어 문자열을 정확히 복제할 수 있다. 또 문장 중간에 자연스럽게 다른 언어로 전환하는 기능도 갖췄다. 시스템 메시지나 프롬프트 해석 능력도 이전보다 강화됐다.
 
오픈AI는 새 음성으로 ‘시더(Cedar)’와 ‘마린(Marin)’을 추가하고 기존 8개 음성도 전반적으로 업그레이드했다. 전화번호 인식 정확도는 65.6%에서 82.8%로, 지시 처리 성능은 20.6%에서 30.5%로, 복잡한 함수 호출 정확도는 49.7%에서 66.5%로 각각 향상된 것으로 나타났다.
 
요금은 음성 입력 100만 토큰당 32달러, 캐시 입력 0.4달러, 음성 출력 64달러다. 이는 기존 GPT-4o 리얼타임 프리뷰 모델보다 약 20% 낮은 수준이다.
 
리얼타임 API는 텍스트 입력 없이 음성과 오디오만으로 처리할 수 있도록 설계됐다. 오픈AI는 API의 안정성과 응답 속도를 높이기 위해 수천 명의 개발자 피드백을 반영했다고 설명했다.
 
이용자는 MCP(모델 컨텍스트 프로토콜) 서버를 연동해 도구 활용을 자동화할 수 있고, 이미지 입력을 통해 화면에 보이는 요소를 바탕으로 대화를 이어갈 수도 있다. 전화 연결 기능도 포함돼 기업 전화망이나 일반 데스크폰과의 연동도 가능해졌다.
 
오픈AI는 "이제 기업과 개발자가 지연 시간을 줄이면서도 음성의 표현력을 살린 대화를 구현할 수 있게 됐다"고 전했다.
 

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기