인공지능(AI) 시대에 데이터가 새로운 화폐로 떠올랐다. AI가 전 산업에 적용되면서 AI의 근간인 데이터 확보가 그 어느 때보다 중요해졌다. 데이터는 AI 모델을 고도화하는 필수 자원일 뿐만 아니라 화폐처럼 거래되면서 경제적 가치를 창출하고 있다.
최근까지는 AI 기술을 직접 개발하는 기업들에 관심이 쏠렸으나 데이터의 경제적 가치가 중요해지면서 클라우드 기업은 물론 데이터 관련 소프트웨어(SW) 기업들이 주목받고 있다.
AI가 급속히 발전하면서 데이터가 돈이 되는 세상으로 빠르게 변하고 있다. AI 학습 데이터를 둘러싼 저작권 문제가 불거지면서 AI 기업들과 콘텐츠 소유자들 간 학습용 데이터 거래가 활발해지고 있는 상황이다.
미국 온라인 커뮤니티 '레딧'은 인터넷 게시물 등 데이터를 AI 기업에 팔아 수익을 내고 있는 대표적 기업이다. 한국의 '디시인사이드'와 비슷한 레딧은 다양한 관심사를 가진 이용자들이 자유롭게 글을 올리며 정보를 공유하는 게시판 커뮤니티 서비스다. 레딧은 지난해 말 기준 10억건 이상의 게시물과 160억건 넘는 댓글을 보유하고 있다. 하루 평균 120만건의 게시물이 새롭게 생성되며, 월간 고유 방문자 수는 12억명으로 추산된다.
레딧은 지난해 데이터 유료화를 추진한 이후 현재까지 데이터 공급 계약 규모만 총 2억3000만 달러(약 3108억원)에 달한다. 지난 2월에는 구글과 연간 6000만 달러(약 801억원) 규모의 데이터 제공 계약을 맺었다. 최근 오픈AI와도 파트너십을 체결하면서 오픈AI는 레딧의 실시간 콘텐츠에 접속할 수 있게 됐다.
이와 함께 AI 기업들이 뉴스 콘텐츠 이용을 위해 언론사와 직접 계약을 맺는 사례가 늘고 있다. 뉴스 콘텐츠는 신뢰할 수 있고 고품질 정보를 포함하고 있어 학습 데이터로서 가치가 높기 때문이다.
최근 오픈AI는 미국 미디어 기업 허스트와 콘텐츠 계약을 맺었다. 허스트는 에스콰이어, 코스모폴리탄 등 유명 잡지 브랜드를 보유하고 있다. 구체적 계약 금액은 공개되지 않았으나 허스트는 오픈AI 기술 활용과 함께 수백만 달러의 보상을 받을 수 있는 것으로 알려졌다. 또 이번 계약을 통해 오픈AI는 20개 이상의 잡지 브랜드와 40개 이상의 신문 콘텐츠를 자사의 생성 AI 서비스 챗GPT에 활용할 수 있게 됐다.
앞서 오픈AI는 미국 폴리티코를 비롯해 독일 미디어그룹 악셀스프링거, AP통신, 프랑스 르몽드, 영국 파이낸셜타임스(FT) 등과 콘텐츠 제휴를 맺었다. 지난 6월에는 월스트리트저널(WSJ)·뉴욕포스트·더타임스·마켓워치 등을 보유한 뉴스코퍼레이션(뉴스코프)과 향후 5년간 2억5000만 달러(약 3400억원) 규모의 콘텐츠 계약을 체결하기도 했다.
구글도 뉴스코프와 AI 콘텐츠 이용을 위한 계약을 체결했다. 이번 계약으로 구글은 뉴스코프에 연간 500만∼600만 달러(약 69억~83억원)를 지급하기로 했다.
국내에서는 AI 학습을 위한 뉴스 데이터 판매를 시작했다. 국내 언론사들의 저작권을 보장하고, AI 기업들이 뉴스 데이터를 합법적으로 이용하기 위한 방안으로 마련된 것이다. 이용을 원하는 기업이나 단체는 기간과 매체를 설정해 뉴스 데이터를 구입하고 AI 학습에 활용할 수 있다. 뉴스 데이터를 제공하는 언론사는 신문, 인터넷 신문, 방송 등 총 97개 매체다.
이와 관련해 메타의 생성 AI 개발을 총괄하고 있는 마노하르 팔루리 부사장은 "(AI 학습용) 텍스트 데이터가 빠르게 고갈되고 있기 때문에 향후 영상이나 이미지 등 시각 데이터에서 얻을 수 있는 정보가 중요해질 것"이라면서 "미래에는 멀티모달 데이터 학습에 대한 연구 고도화가 필요하다고 본다"고 말했다.
빅테크 기업들이 잇따라 데이터 구매 계약을 맺는 이유는 질 좋은 데이터 확보가 점차 어려워지고 있어서다. 전문가들 사이에선 2년 뒤 AI 학습용 데이터가 고갈될 수 있다는 전망이 나온다. 데이터 고갈로 인해 AI 개발이 둔화될 수 있다는 관측도 제기되고 있다.
미국의 비영리 연구기관 에포크AI에 따르면 2026년 이전에 고품질 언어 데이터가 고갈될 수 있다. 현재까지 생성돼 공개된 텍스트 데이터 재고는 약 300조 토큰 규모로 추정된다. 인간이 생성해내는 새로운 데이터 양보다 생성 AI의 학습속도가 빨라지고 있어 이러한 추세가 계속된다면 2028년까지 AI를 학습시킬 수 있는 데이터가 모두 소진될 수 있다고 에포크AI는 예측했다.
특히 최근 AI 모델 수요에 따라 대량의 데이터를 학습하려는 '과잉 훈련'을 한다면 내년부터 데이터 고갈이 나타날 수 있다. 모델을 5배 정도 과잉 훈련하면 2027년에 데이터 고갈이 나타나는데 100배까지 과잉 훈련을 하면 2025년에 데이터가 고갈될 수 있다고 에포크AI는 전했다. 메타의 라마3 70B 모델은 10배가량 과잉 훈련이 진행됐다.
이러한 데이터 부족 문제를 해결하기 위해 실제 데이터를 모방해 만든 '합성 데이터' 활용에 관심이 쏠린다. 합성 데이터는 기존 데이터에 일종의 시뮬레이션(통계적 프로세스)을 적용해 생성한 가짜 데이터다. 의료, 자율주행, 금융 등 데이터 수집이 제한적인 분야에서 많이 사용될 것으로 보인다. 의료 분야에선 환자 기밀을 유지하면서 기록 데이터를 활용할 수 있고, 대부분 고객 데이터가 비공개인 금융 분야에서 고객 행동을 이해하기 위해 합성 고객 거래 데이터를 사용할 수 있다.
특히 합성 데이터는 저렴하고 쉽게 생성 가능하기 때문에 향후 AI 학습용 데이터에 가장 많이 활용될 것으로 전망된다. 가트너에 따르면 합성 데이터는 올해 AI 학습용 데이터의 60%를 차지하고 2030년까지 실제 데이터의 대부분을 대체할 것으로 예상했다. 국내에서도 합성 데이터 생성 시장이 연평균 23.4%로 성장할 것으로 전망된다.
김민진 정보통신정책연구원(KISDI) 연구원은 "합성 데이터는 개인정보를 보호하면서 불충분한 데이터로 인한 인공지능 모델 성능 문제를 극복하는 대안으로 부상하고 있다"면서 "다만 현업에서 합성 데이터를 활용하려면 여전히 고려해야 할 부분이 있다"고 말했다. 이어 "데이터 생성 시 전문가의 개입이 요구되며 프라이버시 이슈와 데이터 편향 문제에서 자유로울 수 없다"고 지적했다.
데이터 경제 시대에 가장 부가가치가 높은 분야로 '클라우드 사업'이 부각되고 있다. 클라우드 업체들은 데이터를 저장하고 실시간으로 관리·분석할 수 있는 플랫폼을 제공함으로써 데이터를 유용하게 만드는 핵심적 역할을 담당하고 있다. 대표적으로 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드, 오라클 등이 있다. 이들은 단순히 스토리지 제공을 넘어 데이터의 실시간 처리·보안·분석까지 지원하고 있다.
특히 생성 AI 덕분에 퍼블릭 클라우드 시장 성장세가 가파르다. 시장조사기관 가트너에 따르면 올해 전 세계 퍼블릭 클라우드 지출은 6754억 달러(약 912조8000억원)로 지난해보다 20.4% 증가했다. 부문별로 서비스형 인프라(IaaS)가 25.6%로 가장 많았고, 서비스형 플랫폼(PaaS)이 20.6%로 그 뒤를 이었다. 이와 관련해 시드 내그 가트너 VP 애널리스트는 "이 같은 성장세는 생성 AI를 지원하는 애플리케이션을 대규모로 제공하기 시작했기 때문"이라면서 "AI 모델 학습, 추론, 미세 조정을 수행하기 위한 인프라 필요성은 계속 증가하고 있고, 향후 IaaS 지출에 직접적인 영향을 미칠 것"이라고 말했다.
이런 가운데 기업들이 생성 AI를 도입함에 따라 데이터 관리 도구 소프트웨어(SW)에 대한 수요도 높아지고 있다. 최근 인포매티카 조사에 따르면 생성 AI 도입의 주요 장애물로 데이터 리더의 42%가 데이터 품질을, 40%가 데이터 거버넌스와 개인정보 보호를 꼽았다. 응답자 중 58%가 데이터 자산을 관리하기 위해 5개 이상의 데이터 관리 도구가 필요하다고 답했다.
아울러 현재까지 생성 AI로 인한 관심은 대체로 반도체와 같은 인프라 기업에 쏠려 있었다. 하지만 이제는 생성 AI를 실제 활용할 수 있도록 돕는 도구인 SW의 가치가 높아질 것으로 전망된다. 벡터 DB, 데이터 플랫폼 등과 같은 SW 업체가 대표적이다.
최근 멀티모달 AI 트렌드에서 벡터 DB의 역할이 중요해졌다. 벡터 DB는 데이터를 숫자의 벡터(좌표)로 변환해 저장하는 데이터베이스로, 벡터 간 유사도를 빠르게 계산하는 데 사용된다. 예를 들어 AI 모델이 사진이나 텍스트를 벡터로 변환하면 벡터 DB는 유사한 사진이나 텍스트를 검색할 수 있게 해준다. 최근 SW스타트업 리툴이 설문조사한 데 따르면 지난 6월 기준 생성 AI 개발자 중 63%가 벡터 DB를 사용 중이다. 이는 지난 4월 조사 결과와 비교해 20% 증가한 수치이다.
데이터를 잘 관리하도록 돕는 데이터 플랫폼의 역할도 중요하다. 데이터 웨어하우스와 데이터 레이크가 대표적이다. '데이터 웨어하우스'는 고객프로필, 판매, 거래, 재무정보, 재고 등 구조화된 데이터를 처리하는 데 적합하고, '데이터 레이크'는 구조화된 데이터뿐만 아니라 텍스트, 비디오, 이미지 다양한 데이터를 저장할 수 있다. 대표적으로 스노플레이크와 데이터브릭스 등이 있다.
임지용 NH투자증권 연구원은 "아직은 소외되고 있지만 이제는 AI SW 기업이 주목받을 때"라면서 "어느 분야에서 챗GPT에 버금가는 AI 킬러앱이 나올지는 모르겠지만 도구적 성격을 가진 AI SW기업의 수요가 실적으로 확인되는 시점은 올해 말 혹은 내년 초라고 생각한다"고 말했다.
최근까지는 AI 기술을 직접 개발하는 기업들에 관심이 쏠렸으나 데이터의 경제적 가치가 중요해지면서 클라우드 기업은 물론 데이터 관련 소프트웨어(SW) 기업들이 주목받고 있다.
AI 시대, 데이터가 돈이다···인터넷 게시물·뉴스 콘텐츠 거래 급증
AI가 급속히 발전하면서 데이터가 돈이 되는 세상으로 빠르게 변하고 있다. AI 학습 데이터를 둘러싼 저작권 문제가 불거지면서 AI 기업들과 콘텐츠 소유자들 간 학습용 데이터 거래가 활발해지고 있는 상황이다.
미국 온라인 커뮤니티 '레딧'은 인터넷 게시물 등 데이터를 AI 기업에 팔아 수익을 내고 있는 대표적 기업이다. 한국의 '디시인사이드'와 비슷한 레딧은 다양한 관심사를 가진 이용자들이 자유롭게 글을 올리며 정보를 공유하는 게시판 커뮤니티 서비스다. 레딧은 지난해 말 기준 10억건 이상의 게시물과 160억건 넘는 댓글을 보유하고 있다. 하루 평균 120만건의 게시물이 새롭게 생성되며, 월간 고유 방문자 수는 12억명으로 추산된다.
이와 함께 AI 기업들이 뉴스 콘텐츠 이용을 위해 언론사와 직접 계약을 맺는 사례가 늘고 있다. 뉴스 콘텐츠는 신뢰할 수 있고 고품질 정보를 포함하고 있어 학습 데이터로서 가치가 높기 때문이다.
최근 오픈AI는 미국 미디어 기업 허스트와 콘텐츠 계약을 맺었다. 허스트는 에스콰이어, 코스모폴리탄 등 유명 잡지 브랜드를 보유하고 있다. 구체적 계약 금액은 공개되지 않았으나 허스트는 오픈AI 기술 활용과 함께 수백만 달러의 보상을 받을 수 있는 것으로 알려졌다. 또 이번 계약을 통해 오픈AI는 20개 이상의 잡지 브랜드와 40개 이상의 신문 콘텐츠를 자사의 생성 AI 서비스 챗GPT에 활용할 수 있게 됐다.
앞서 오픈AI는 미국 폴리티코를 비롯해 독일 미디어그룹 악셀스프링거, AP통신, 프랑스 르몽드, 영국 파이낸셜타임스(FT) 등과 콘텐츠 제휴를 맺었다. 지난 6월에는 월스트리트저널(WSJ)·뉴욕포스트·더타임스·마켓워치 등을 보유한 뉴스코퍼레이션(뉴스코프)과 향후 5년간 2억5000만 달러(약 3400억원) 규모의 콘텐츠 계약을 체결하기도 했다.
구글도 뉴스코프와 AI 콘텐츠 이용을 위한 계약을 체결했다. 이번 계약으로 구글은 뉴스코프에 연간 500만∼600만 달러(약 69억~83억원)를 지급하기로 했다.
국내에서는 AI 학습을 위한 뉴스 데이터 판매를 시작했다. 국내 언론사들의 저작권을 보장하고, AI 기업들이 뉴스 데이터를 합법적으로 이용하기 위한 방안으로 마련된 것이다. 이용을 원하는 기업이나 단체는 기간과 매체를 설정해 뉴스 데이터를 구입하고 AI 학습에 활용할 수 있다. 뉴스 데이터를 제공하는 언론사는 신문, 인터넷 신문, 방송 등 총 97개 매체다.
이와 관련해 메타의 생성 AI 개발을 총괄하고 있는 마노하르 팔루리 부사장은 "(AI 학습용) 텍스트 데이터가 빠르게 고갈되고 있기 때문에 향후 영상이나 이미지 등 시각 데이터에서 얻을 수 있는 정보가 중요해질 것"이라면서 "미래에는 멀티모달 데이터 학습에 대한 연구 고도화가 필요하다고 본다"고 말했다.
"AI 학습용 데이터, 2년 뒤 고갈 될 수도"···합성 데이터가 뜬다
빅테크 기업들이 잇따라 데이터 구매 계약을 맺는 이유는 질 좋은 데이터 확보가 점차 어려워지고 있어서다. 전문가들 사이에선 2년 뒤 AI 학습용 데이터가 고갈될 수 있다는 전망이 나온다. 데이터 고갈로 인해 AI 개발이 둔화될 수 있다는 관측도 제기되고 있다.
미국의 비영리 연구기관 에포크AI에 따르면 2026년 이전에 고품질 언어 데이터가 고갈될 수 있다. 현재까지 생성돼 공개된 텍스트 데이터 재고는 약 300조 토큰 규모로 추정된다. 인간이 생성해내는 새로운 데이터 양보다 생성 AI의 학습속도가 빨라지고 있어 이러한 추세가 계속된다면 2028년까지 AI를 학습시킬 수 있는 데이터가 모두 소진될 수 있다고 에포크AI는 예측했다.
특히 최근 AI 모델 수요에 따라 대량의 데이터를 학습하려는 '과잉 훈련'을 한다면 내년부터 데이터 고갈이 나타날 수 있다. 모델을 5배 정도 과잉 훈련하면 2027년에 데이터 고갈이 나타나는데 100배까지 과잉 훈련을 하면 2025년에 데이터가 고갈될 수 있다고 에포크AI는 전했다. 메타의 라마3 70B 모델은 10배가량 과잉 훈련이 진행됐다.
이러한 데이터 부족 문제를 해결하기 위해 실제 데이터를 모방해 만든 '합성 데이터' 활용에 관심이 쏠린다. 합성 데이터는 기존 데이터에 일종의 시뮬레이션(통계적 프로세스)을 적용해 생성한 가짜 데이터다. 의료, 자율주행, 금융 등 데이터 수집이 제한적인 분야에서 많이 사용될 것으로 보인다. 의료 분야에선 환자 기밀을 유지하면서 기록 데이터를 활용할 수 있고, 대부분 고객 데이터가 비공개인 금융 분야에서 고객 행동을 이해하기 위해 합성 고객 거래 데이터를 사용할 수 있다.
특히 합성 데이터는 저렴하고 쉽게 생성 가능하기 때문에 향후 AI 학습용 데이터에 가장 많이 활용될 것으로 전망된다. 가트너에 따르면 합성 데이터는 올해 AI 학습용 데이터의 60%를 차지하고 2030년까지 실제 데이터의 대부분을 대체할 것으로 예상했다. 국내에서도 합성 데이터 생성 시장이 연평균 23.4%로 성장할 것으로 전망된다.
김민진 정보통신정책연구원(KISDI) 연구원은 "합성 데이터는 개인정보를 보호하면서 불충분한 데이터로 인한 인공지능 모델 성능 문제를 극복하는 대안으로 부상하고 있다"면서 "다만 현업에서 합성 데이터를 활용하려면 여전히 고려해야 할 부분이 있다"고 말했다. 이어 "데이터 생성 시 전문가의 개입이 요구되며 프라이버시 이슈와 데이터 편향 문제에서 자유로울 수 없다"고 지적했다.
데이터 저장·관리 '클라우드' 부가가치 높아···AI SW 기업들 '주목'
데이터 경제 시대에 가장 부가가치가 높은 분야로 '클라우드 사업'이 부각되고 있다. 클라우드 업체들은 데이터를 저장하고 실시간으로 관리·분석할 수 있는 플랫폼을 제공함으로써 데이터를 유용하게 만드는 핵심적 역할을 담당하고 있다. 대표적으로 아마존웹서비스(AWS), 마이크로소프트 애저, 구글 클라우드, 오라클 등이 있다. 이들은 단순히 스토리지 제공을 넘어 데이터의 실시간 처리·보안·분석까지 지원하고 있다.
특히 생성 AI 덕분에 퍼블릭 클라우드 시장 성장세가 가파르다. 시장조사기관 가트너에 따르면 올해 전 세계 퍼블릭 클라우드 지출은 6754억 달러(약 912조8000억원)로 지난해보다 20.4% 증가했다. 부문별로 서비스형 인프라(IaaS)가 25.6%로 가장 많았고, 서비스형 플랫폼(PaaS)이 20.6%로 그 뒤를 이었다. 이와 관련해 시드 내그 가트너 VP 애널리스트는 "이 같은 성장세는 생성 AI를 지원하는 애플리케이션을 대규모로 제공하기 시작했기 때문"이라면서 "AI 모델 학습, 추론, 미세 조정을 수행하기 위한 인프라 필요성은 계속 증가하고 있고, 향후 IaaS 지출에 직접적인 영향을 미칠 것"이라고 말했다.
이런 가운데 기업들이 생성 AI를 도입함에 따라 데이터 관리 도구 소프트웨어(SW)에 대한 수요도 높아지고 있다. 최근 인포매티카 조사에 따르면 생성 AI 도입의 주요 장애물로 데이터 리더의 42%가 데이터 품질을, 40%가 데이터 거버넌스와 개인정보 보호를 꼽았다. 응답자 중 58%가 데이터 자산을 관리하기 위해 5개 이상의 데이터 관리 도구가 필요하다고 답했다.
아울러 현재까지 생성 AI로 인한 관심은 대체로 반도체와 같은 인프라 기업에 쏠려 있었다. 하지만 이제는 생성 AI를 실제 활용할 수 있도록 돕는 도구인 SW의 가치가 높아질 것으로 전망된다. 벡터 DB, 데이터 플랫폼 등과 같은 SW 업체가 대표적이다.
최근 멀티모달 AI 트렌드에서 벡터 DB의 역할이 중요해졌다. 벡터 DB는 데이터를 숫자의 벡터(좌표)로 변환해 저장하는 데이터베이스로, 벡터 간 유사도를 빠르게 계산하는 데 사용된다. 예를 들어 AI 모델이 사진이나 텍스트를 벡터로 변환하면 벡터 DB는 유사한 사진이나 텍스트를 검색할 수 있게 해준다. 최근 SW스타트업 리툴이 설문조사한 데 따르면 지난 6월 기준 생성 AI 개발자 중 63%가 벡터 DB를 사용 중이다. 이는 지난 4월 조사 결과와 비교해 20% 증가한 수치이다.
데이터를 잘 관리하도록 돕는 데이터 플랫폼의 역할도 중요하다. 데이터 웨어하우스와 데이터 레이크가 대표적이다. '데이터 웨어하우스'는 고객프로필, 판매, 거래, 재무정보, 재고 등 구조화된 데이터를 처리하는 데 적합하고, '데이터 레이크'는 구조화된 데이터뿐만 아니라 텍스트, 비디오, 이미지 다양한 데이터를 저장할 수 있다. 대표적으로 스노플레이크와 데이터브릭스 등이 있다.
임지용 NH투자증권 연구원은 "아직은 소외되고 있지만 이제는 AI SW 기업이 주목받을 때"라면서 "어느 분야에서 챗GPT에 버금가는 AI 킬러앱이 나올지는 모르겠지만 도구적 성격을 가진 AI SW기업의 수요가 실적으로 확인되는 시점은 올해 말 혹은 내년 초라고 생각한다"고 말했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지