'입 모양까지 맞추는 AI 더빙' 이스트소프트, 세계 최고 권위 학회서 기술 인정

EMNLP 2025에 참가한 이스트소프트 연구진 이미지  사진이스트소프트
EMNLP 2025에 참가한 이스트소프트 연구진 이미지 [사진=이스트소프트]
인공지능(AI) 서비스 기업 이스트소프트는 자사의 AI 자동 더빙 기술 연구가 세계적인 AI·자연어 처리 학회 ‘EMNLP 2025’에 채택됐다고 17일 밝혔다.
 
EMNLP는 전 세계 연구자들이 새로운 AI·언어 기술을 공개하는 대표적인 국제 학회로 꼽힌다.
 
이스트소프트 연구진은 ‘대규모 언어모델(LLM)’을 활용해 여러 나라 말로 자동 더빙을 해주는 새 기술을 선보였다.
 
논문 제목은 ‘대규모 언어모델을 활용한 종단 간 다국어 자동 더빙 프레임워크’다.

핵심은 원본 영상에서 사람이 실제로 말하는 시간과 최대한 맞는 더빙 음성을 만들어, ‘입은 계속 움직이는데 말은 먼저 끝나는’ 식의 어색함을 줄이는 데 있다. 기존 자동 더빙 시스템은 번역된 음성 길이가 원래 음성과 잘 맞지 않아 영상과 음성이 따로 노는 경우가 적지 않았다.
 
이번에 제안된 시스템은 ‘음성을 글자로 바꾸는 단계(STT)’, ‘글을 다른 언어로 번역하는 단계(NMT)’, ‘번역된 글을 다시 음성으로 읽는 단계(TTS)’로 구성된다. 이 가운데 번역 단계에 두 가지 장치를 더한 것이 특징이다.
 
‘발화 길이 조정 번역’ 기술은 원본 화자가 말하는 시간을 기준으로, 번역 후 목소리가 어느 정도 길이가 돼야 할지 AI가 예측해 번역 분량을 조절한다. 이를 통해 번역이 불필요하게 길어지지 않도록 막고, 음성이 영상보다 먼저 끝나거나 지나치게 늦게 끝나는 현상을 줄인다.
 
‘발화 정지 정보 통합’은 사람 말 속에 포함된 숨 고르기나 짧은 멈춤 같은 정지 구간까지 함께 고려해, 더빙 음성에도 비슷한 리듬과 쉼을 반영한다.
 
이 두 기술은 모두 LLM을 기반으로 한다. 단순히 문장을 다른 언어로 옮기는 수준을 넘어 “이 문장은 어느 정도 길이여야 자연스럽고, 어디에서 쉬어야 할지”까지 함께 판단하는 방식이다.
 
이스트소프트는 실험 결과 이번 방식이 자사를 포함한 기존 상용 AI 더빙 시스템과 비교해 영상과 음성이 맞는 정도(싱크 정확도)는 24%, 여러 언어로 들을 때 만족도는 12% 각각 높아졌다고 설명했다.
 
회사 측은 “원본 영상의 말하는 속도와 리듬을 최대한 유지하면서도 다양한 언어로 자연스럽게 더빙된 영상을 만드는 데 한 걸음 더 다가섰다”고 밝혔다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기