
한국과학기술원(KAIST) 연구진이 생성형 인공지능(AI)에 최적화된 고성능·저전력 신경망처리장치(NPU) 핵심 기술 개발에 성공했다.
4일 KAIST는 박종세 전산학부 교수 연구팀이 AI 반도체 스타트업 하이퍼엑셀과의 공동연구를 통해 최신 그래픽처리장치(GPU) 대비 전력 소모는 약 44% 낮고, 평균 60% 이상 추론 성능을 발휘하는 NPU 핵심 기술을 개발했다고 밝혔다.

이번 연구는 생성형 AI 추론 과정에서 정확도 손실을 최소화하면서도 메모리 병목 문제를 해결하는 데 초점을 맞췄다. 특히 메모리 사용의 상당 부분을 차지하는 KV 캐시(KV Cache)를 양자화해, 적은 수의 NPU 디바이스로도 고성능 AI 인프라를 구현할 수 있게 됐다.
기존 GPU 기반 인프라는 높은 메모리 대역폭과 용량을 충족하기 위해 다수의 CPU 디바이스가 필요했다.
반면 이번 기술은 기존 NPU 아키텍처의 연산 로직을 그대로 유지하면서도, 메모리 인터페이스와 통합 가능한 방식으로 설계됐다. 연구팀은 제한된 메모리 환경에서 효율적인 운영이 가능하도록 페이지 단위 메모리 관리 기법과, 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등을 개발했다.
이에 따라 대규모 생성형 AI 클라우드 인프라 구축 비용을 크게 절감할 수 있을 것으로 기대된다.
박 교수는 “이번 연구는 생성형 AI 추론 경량화 알고리즘을 통해 ‘메모리 문제’의 해법을 제시하고, 정확도를 유지하면서도 메모리 요구량을 줄이는 경량화 기법과 하드웨어 설계를 결합해 최신 GPU보다 평균 60% 이상 성능이 향상된 NPU를 구현했다”며 “이 기술은 ‘에이전틱 AI(Agentic AI)’와 같은 차세대 AI 기술을 구현하는 데도 핵심 역할을 할 수 있을 것”이라고 했다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지