서희스타힐스

"GPT4o·제미나이보다 빨라"…트웰브랩스, 신규 모델 '페가수스 1.2' 공개

기자정보, 기사등록일
윤선훈 기자
입력 2025-02-12 08:26
    도구모음
  • 글자크기 설정
사진트웰브랩스
[사진=트웰브랩스]
트웰브랩스가 기존 대비 고도화된 영상언어 생성 모델 '페가수스(Pegasus)-1.2'를 공개했다고 12일 밝혔다.

지난 2023년 11월 처음 공개된 페가수스는 트웰브랩스가 자체 개발한 800억 파라미터(매개변수) 규모의 초거대 영상언어 생성 모델(Video Language Foundation Model)이다. 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능을 선보였다.

이번에 공개된 페가수스-1.2는 기존 버전을 더욱 강화했다. 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력이 한층 올라갔으며, 짧은 영상부터 1시간짜리 장편 영상까지 다양한 길이의 영상을 높은 정확도로 처리할 수 있다. 또 영상을 효율적으로 저장·재사용하는 기술로 이미 한 번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리 가능하다는 설명이다.

트웰브랩스 관계자는 "영상의 맥락과 세부 내용을 정확하게 파악해 요약본, 하이라이트, 상세 보고서 등 다양한 형태의 텍스트로 만들어내는 능력은 실제 산업 현장에서 큰 활용 가치를 가질 것으로 기대된다"고 말했다.

아울러 고급 비전 인코딩 전략과 토큰 감소 기술을 통해 모델의 효율성과 이해도를 크게 높였다. 다른 영상 AI 모델들이 대규모 모델 사이즈로 성능을 끌어올리는 방식을 택한 것과 달리, 페가수스-1.2는 이들 기술을 활용해 상대적으로 가벼운 모델 크기로도 성능을 끌어올렸다. 트웰브랩스에 따르면 페가수스-1.2는 최신 언어모델인 GPT4o나 제미나이 1.5 프로보다 빠른 응답속도를 보였고, GPT4o, 제미나이 1.5 프로, 클로드 3.5 소네트의 API와 비교했을 때 더 뛰어난 성능을 더 낮은 비용으로 제공한다.

트웰브랩스는 페가수스-1.2를 향후 다양한 분야에서 활용한다. 엔터테인먼트 분야에서는 영상 콘텐츠 분류와 하이라이트 추출에 활용 가능하며, 교육 분야에서는 강의 영상 요약과 키포인트 추출이 가능하다. 보안 분야에서는 CCTV 영상 분석 및 이상 징후 탐지에 적용할 수 있다.

이승준 트웰브랩스 최고기술책임자(CTO)는 "영상 이해를 위해서는 화면 속 객체들의 공간적 관계, 시간에 따른 변화, 전후 맥락 간의 복잡한 상호작용을 모두 파악할 수 있는 고도화된 AI 모델이 필요하다"며 "페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 됐다"고 말했다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기