근대문학·잡지·옛교과서 데이터, AI 학습용으로 풀린다

  • 근대 시기 출간된 국내 발간물 등

  • 저작권 문제 해소된 텍스트 중심

  • 유산진흥원, 민화 데이터 사업도

국립중앙도서관 전경  사진국립중앙도서관
국립중앙도서관 전경 [사진=국립중앙도서관]

정부가 인공지능(AI) 산업의 토대가 되는 고품질 학습 데이터 구축에 속도를 낸다. 우선 저작권 문제가 해소된 텍스트부터 AI 학습에 자유롭게 활용할 수 있도록 국립중앙도서관의 문을 활짝 연다. 

8일 국립중앙도서관에 따르면, 민간이 AI 기술개발에 자유롭게 활용할 수 있는 텍스트 데이터를 제공하는 '공유서재'를 도서관 누리집 내에 오는 3월께 개설한다. 

국립중앙도서관 관계자는 "우리 도서관이 기존에 소장하고 있던 디지털화한 자료들을 텍스트 파일 등 AI 학습이 가능한 형태로 다시 구축했다"며 "저작권 문제가 해결된 자료를 중심으로 데이터를 구축하고 있다"고 말했다. 이어 "이르면 오는 3월 중 개방할 예정이다"라고 덧붙였다. 

자료는 국내 발간물로 한정된다. 대부분 근대 시기에 출간된 저작물이다. 저작권 보호 기간이 만료됐거나 국립중앙도서관이 직접 발간한 자료가 중심이다. 저작권법에 따르면 저작권 보호 기간은 저작자 사후 70년으로, 이번에 개방되는 자료들에 1900년대 초반 작품들이 다수 포함될 전망이다. 국립중앙도서관 관계자는 “근대잡지, 근대문학, 고전문학, 교과서 등이 주를 이룰 것”이라고 설명했다.

이들 데이터는 과학기술정보통신부의 ‘독자 AI파운데이션 모델 프로젝트’에도 제공된다. '독자 AI파운데이션 모델'은 국내 기술과 자원을 활용해 직접 학습 및 운영되는 범용 인공지능 모델을 일컫는다.
 
해외 주요 국립도서관도 AI 학습 데이터 구축과 개방을 서두르고 있다. 1661년 개관한 스웨덴 국립도서관은 산하 연구소를 통해 중세 필사본 등 약 500년간 축적한 방대한 텍스트 자료를 활용해서 20개 이상의 오픈소스 트랜스포머 모델을 구축했다. 매달 최대 20만명의 개발자가 이를 연구 및 기술 개발에 활용하는 것으로 알려진다.
 
호랑이 캐릭터 학습전왼쪽과 학습후 사진국가유산진흥원
호랑이 캐릭터 학습 전(왼쪽)과 학습 후 [사진=국가유산진흥원]

정부는 이미지 데이터 구축에도 속도를 내고 있다. 국가유산청 산하 국가유산진흥원은 ‘한국 전통 민화 제작 데이터 사업’을 통해 우리 전통 민화의 고유성을 구현할 수 있는 고품질 학습용 데이터를 마련했다. 기존 생성형 AI 모델은 한국 전통 민화의 독특한 화풍이나 도상을 왜곡하거나 부정확하게 표현하는 등 한계가 있었다.

구축된 데이터는 화조도, 산수화, 호작도, 책가도 등 화목별 민화 이미지 3779장을 비롯해 상세 묘사 이미지 5340장, 한·영 멀티모달 캡션 데이터 7만7388건 등이다. 멀티모달 캡션 데이터란 이미지와 작품 정보를 결합해 AI가 이를 이해하고 언어로 생성 및 설명할 수 있도록 구축한 학습용 데이터를 일컫는다. 특히 가회민화박물관 등의 소장품을 기반으로 작가 연대와 도상 체계를 철저히 검증했다.
 
이 데이터셋은 굿즈 등 산업 디자인·제품 개발, 디지털 콘텐츠·미디어 아트, 글로벌 홍보 등 다양한 분야에서 활용될 전망이다. 구축된 민화 데이터는 올해 상반기 중 ‘AI허브’에 전면 개방된다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기