기존에 데이터가 빅데이터급으로 많이 축적된 분야에서는 인공지능(AI)이 잘 작동할 수 있다는 단적인 사례를 보여준 것이 이번 노벨 물리학상과 화학상이다. 또한 이번 CES 2025에서 엔비디아의 젠슨 황이 보여준 신체적 AI라는 개념도 지금 생성 AI가 어느 방향을 향해 개발되고 있는지를 단적으로 보여주는 사례였다. 자동차나 로봇을 제외하면 다른 제조업 분야나 일반 기업 경영에는 아직 시기상조라는 증명이다. 왜 일반 기업 부문에 생성 AI가 맞지 않는 것일까. 거기에는 여러 원인이 있지만 그중 가장 결정적인 한계는 생성 AI의 기업 문서 분석 능력 부족에 있다. 그렇다면 그걸 개선하려면 뭐가 필요할까. 이게 이번 글의 주제다.
과학 분야에는 실제로 실험 결과로 수집된 빅데이터가 많다. 모두 실험실에서 나온 데이터들이다. 예를 들면 분자가속기 혹은 원자분쇄기로 명명되는 기계에서는 불과 1초당 1페타바이트(PB)라는 어마어마한 데이터 양이 발생한다. 1페타란 1000테라바이트(TB)로 10의 15승을 일컫는다. 따라서 충돌 실험이 수십 초 동안만 진행되더라도 수십 PB 분량의 데이터가 발생한다. 이는 대규모 물리 혹은 화학 혹은 생물 실험 현장이 아닌 기업에서는 상상도 못할 만한 큰 분량이다. 따라서 데이터가 풍성한 과학 분야는 AI가 잘 놀 수 있는 마당이 된다. 바둑의 기보가 빅데이터급으로 쌓일수록 알파고가 잘 작동했듯이 말이다. 알파고는 본질상 검색엔진이었다. 역대 기보 전체를 모두 학습한 데이터를 토대로 해서 다음 묘수를 찾아내는 데 인간보다 탁월했기 때문에 이세돌 9단을 제압할 수 있었던 것이다. 역대 기보 전체를 데이터 분량으로 추정하면 대략 40TB 정도 나온다. 빅데이터급(빅데이터로 불리려면 1000TB는 되어야 함)에는 훨씬 못 미치지만 그럼에도 불구하고 여전히 방대한 규모의 데이터다. 외장 하드디스크의 보통 용량이 2TB인 점을 감안하면 그 20배나 되므로 기보 전체는 꽤 큰 규모다. 이렇듯 AI는 무지막지한 분량의 데이터를 사전에 학습한 것을 기반으로 새로운 묘수를 제시하는 데 탁월하다. 우리 몸에서 중요한 역할을 하는 단백질의 새로운 구조를 밝히기 위해 과학자들은 많이 노력해왔다. 그러나 단백질 구조 분야는 연구비와 시간을 엄청나게 투자한다고 해서 결과가 그에 비례해서 나오는 분야가 아니었다. 이 과정을 AI가 파고든 것이다.
단백질은 마치 기다란 끈이 말려 있거나 접혀 있는 것처럼 보이는 아미노산으로 이뤄져 있다. 아미노산을 기본 생명 단위로 해서 긴 사슬 형태로 이루어진 모습이 단백질이라는 분자다. 참고로 분자란 원자들이 화학 결합을 통해 이루어진 단위체를 가리키는 용어다. 알파고 개발자로 유명한 하시비스는 자신의 영국 대학 박사 과정 시절에 그가 소속된 연구실에서 개발된 '폴드잇'이라는 게임을 해본 적이 있다. 폴드잇은 가상의 공간에서 아미노산을 갖가지 방법으로 접어보면서 조합을 시도하는 온라인 웹 게임이다. 단백질을 직접 접어 보면서 안정된 구조를 찾아가는 모의실험이다. 이 도구로 과학자가 수십 년간 밝혀내지 못했던 에이즈 바이러스가 증식하는 데 필수적인 단백질 구조를 다수의 온라인 게이머들이 단 3주 만에 찾아낸 일도 있다. 폴드잇을 써 본 하사비스는 새로운 구조를 찾아 나가는 과정이 바둑을 둘 때 다음 수를 내놓는 것과 같다고 생각했다. 바둑 기사들이 다음 수를 놓는 과정과 단백질 구조 예측을 하는 과정이 유사하다고 판단했고 이에 대한 실증작업으로 알파고를 만들어 이세돌 9단을 이긴 뒤에는 학습을 마친 AI는 확률적으로 가장 나은 제안을 한다는 사실에 확신을 가졌다. 그 자신감을 바탕으로 그는 신종 단백질 전용 알파폴드 팀을 곧바로 꾸렸다. 그가 개발한 검색엔진 알파폴드에서는 딥러닝 기술을 사용하여 기학습한 단백질 구조 데이터와 아미노산 특징 데이터를 바탕으로 확률적으로 가장 가능성이 큰 아미노산을 찾아내기에 이른다. 이는 마치 챗GPT가 다음에 올 가장 최적화된 단어를 찾아낸 것과 같다. 이렇게 하여 알파폴드는 단백질 구조를 90% 정확도로 예측해냈다.
그러나 눈을 기업으로 돌려보면 기업 섹터는 데이터가 그런 규모로 많지는 않다. 기업으로서 전 세계적으로 가장 많은 데이터를 보유하고 있는 곳은 월마트로 총 데이터량이 무려 40PB에 달한다. 전 세계 기업 중 1PB 분량을 초과하는 데이터를 보유한 기업은 불과 10개 미만에 지나지 않는다. 우리나라엔 그런 기업이 하나도 없으며 미국에 구글, 아마존, 마이크로소프트를 포함한 단 몇 곳만 있을 뿐이다. 실제로 제조 기업에서 많은 데이터를 발생시키는 기업이 있다 하더라도 데이터를 사외에 공개하기가 불가능하기 때문에 생성 AI는 거기에 접근할 수 없다. 과학데이터는 숫자뿐이라 단순하지만 제조 기업에서는 발생하는 자체 데이터도 기업 내 문서와 관계가 있기 때문에 문서가 AI에 적합하도록 다듬어져 있기 전에는 AI를 실제 적용할 길이 없다. 기업 내 문서데이터는 문장 형태로 표현되는 게 특징이다. 숫자는 별로 없다. 제약회사와 공장형 제조 기업은 예외다. 그간 축척한 방대한 데이터를 활용해 정확도를 높여 불량률을 줄일 수 있었다. 제약회사는 의약 실험 데이터를 다량으로 보유하고 있기 때문에 AI 효과를 볼 수 있다. 이런 데이터가 풍부한 제조업을 제외하면 기업 부문에서 AI로 효과를 볼 수 있는 분야는 극히 제한적이다. 기업 문서 내 문장이 문법적으로 온전치 않으면 기업 문서를 있는 AI에 그대로 학습시켜본들 소용이 없는 까닭이다. 따라서 문장의 온전성을 판별하는 선행 과정이 필수적이다. 누가 무엇을 언제 어떻게 (무슨 행위 A를) 하는지에 대해 기술하는 것이 문장의 내용이다. 즉 어느 문장이든 6하 원칙을 갖추는 게 기본 중의 기본이다. 6하 원칙 중에서도 행위가 가장 핵심이다. A라는 행위를 매개로 해서 B-A-C와 같은 데이터 간 관계적 흐름이 조성된다는 뜻이다. 따라서 B와 C보다는 A가 초점인 것이다.
이게 문서 문장 데이터가 과학 수치 데이터와 다른 점이다. 문서 데이터에서 중요한 점은 그것을 AI의 먹이로 작용시키고자 할 때는 문서 내 문장이 행위 중심으로 기술되어 있는지 면밀히 살펴봐야 한다는 점이다. 행위 중심으로 돼 있어야 AI의 핵심인 문장 간 추론이 가능하기 때문이다. 추론이란 사실들을 죽 늘어 놓고 연역 혹은 귀납의 과정을 거쳐 새로운 사실을 발견해내는 일을 말한다. 도표를 기반으로 해서는 추론할 일이 거의 없다. 왜냐하면 도표 속 데이터는 단순히 숫자만 담고 있기 때문이다. 추론은 연역 또는 귀납의 과정을 거쳐야 가능한데 그러려면 데이터 간 연결고리 발견이 관건이다. 예를 들면 위에서 B라는 데이터와 C라는 데이터가 A라는 데이터를 통해 연결고리를 갖듯이 데이터 간 연결고리를 찾는 게 추론에서는 중요하다. 그걸 찾아가는 길, 즉 추론 경로라고 부른다. 이런 데이터 간 경로는 문장 내에서 발굴 가능해야 한다. 그런데 문법적으로 온전치 못한 문장에서는 이런 경로 발견이 불가능하다.
그러므로 만일 행위 중심으로 묘사되어 있지 않을 때에는 반드시 사전에 변환(정제)을 거쳐야 한다. 그 후에 AI에 문서 데이터를 학습시켜야 한다. 그래야 추론도 가능해진다. 따라서 행위 중심으로 제대로 제작된 문장을 교정 과정 없이 그대로 AI에 먹이로 준다면 실패할 수밖에 없다. AI에 내장된 추론 기능이 문서 정제까지도 자동으로 알아서 해주겠지 하는 생각은 오산이다. 잘못 작성된 문장이라도 많은 문장들을 학습시켜 보면 추론이 가능할 것 아니겠는가 하는 생각도 잘못이다. 쓰레기 더미에서 보석을 찾는 게 불가능하듯이 말이다. 따라서 AI 적용 효용성은 데이터의 유형으로 판가름 나는 것이다. 실험 결과가 숫자나 이미지 형태로 나타나는 기초과학 분야에서는 AI가 막강한 성능을 발휘할 수 있지만 숫자 형태보다는 문장 형태가 많은 사회과학 분야에서는 AI가 설 땅은 별로 없다. 기업 경영은 기초과학이 아니라 사회과학에 속한다. 따라서 경영 합리화와 경영 최적화를 위해서는 AI를 적용하기 전에 무엇을 필수적으로 갖추어야 하는지에 대해 깊이 생각해 봐야 한다.
문송천 필자 이력
▷카이스트 경영대학원 교수 ▷미국 일리노이대(어바나 샴페인) 전산학 박사 ▷유럽IT학회 아시아 대표이사 ▷대한적십자사 친선홍보대사 ▷카이스트·케임브리지대·에든버러대 전산학과 교수
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지