[CES 2026] 젠슨 황, 차세대 AI칩 '베라 루빈' 공개…성능은 10배, 비용은 10분의 1

엔비디아 젠슨 황 CEO 최고경영자가 5일 현지시각 라스베이거스 퐁텐블루 블루라이브 씨어터에서 열린 엔비디아 프레스 컨퍼런스 중 기조연설을 하고 있다 사진아주미디어그룹 CES 특별 취재단 — 엔비디아 젠슨 황 CEO (최고경영자)가 5일 (현지시각) 라스베이거스 퐁텐블루 호텔 블루라이브 씨어터에서 열린 엔비디아 프레스 컨퍼런스 중 기조연설을 하고 있다. [사진=아주미디어그룹 CES 특별 취재단]

엔비디아의 젠슨 황 CEO(최고경영자)가 CES 2026를 앞두고 차세대 인공지능(AI) 칩 ‘베라 루빈(Vera Rubin)’을 공개했다. “모든 AI를 위한 원 플랫폼”으로 규정한 베라 루빈은 단일 칩을 넘어 학습과 추론, 네트워킹, 보안, 운영까지 AI 컴퓨팅 전 과정을 하나의 구조로 묶은 랙 스케일 시스템으로, 황 CEO는 이를 통해 AI 인프라의 작동 방식 자체를 재설계하겠다는 구상을 제시했다.

황 CEO는 1월 5일(현지시간) 미국 라스베이거스 퐁텐블루 호텔 내 블루라이브 시어터에서 열린 CES 2026 프레스 콘퍼런스에서 컴퓨팅 산업이 또 한 번의 구조적 전환기에 들어섰다고 진단했다. 그는 “컴퓨터 산업은 10년에서 15년마다 리셋된다”며 “지금은 AI 애플리케이션으로의 전환과 소프트웨어를 만드는 방식의 변화가 동시에 일어나고 있다”고 말했다.

황 CEO가 강조한 변화의 핵심은 AI가 더 이상 하나의 애플리케이션에 머물지 않는다는 점이다. 그는 “이제 소프트웨어를 프로그래밍하지 않는다. 소프트웨어를 훈련시킨다”고 말하며, AI 애플리케이션은 미리 컴파일된 코드를 실행하는 구조가 아니라 맥락을 이해하고 매번 새로운 결과를 생성하는 방식으로 진화하고 있다고 설명했다. “애플리케이션은 이제 매번 모든 토큰을 처음부터 생성한다”는 것이다.

이 같은 변화로 인해 컴퓨팅 스택 전반이 재구성되고 있다고 황 CEO는 설명했다. 그는 “컴퓨팅을 구성하는 다섯 개 스택이 모두 다시 설계되고 있다”며, 지난 10년간 구축된 대규모 컴퓨팅 인프라와 연구개발(R&D) 자금 흐름 역시 AI 중심 구조로 빠르게 이동하고 있다고 말했다.

관련기사

사진아주미디어그룹 CES 특별 취재단 — 엔비디아 젠슨 황 CEO (최고경영자)가 5일 (현지시각) 라스베이거스 퐁텐블루 호텔 블루라이브 씨어터에서 열린 엔비디아 프레스 컨퍼런스 중 새로이 출시될 베라 루빈 AI칩에 대해 설명하고 있다. [사진=아주미디어그룹 CES 특별 취재단]

베라 루빈은 이러한 환경 변화에 대한 엔비디아의 해법이다. 황 CEO는 무어의 법칙 둔화를 언급하며, 트랜지스터 수를 늘리는 방식만으로는 급격히 커지는 모델 규모와 추론 부담을 감당하기 어렵다고 지적했다. 그는 “모델은 해마다 더 커지고, 추론은 이제 단순한 응답이 아니라 생각하는 과정이 됐다”며 “이를 감당하려면 극단적인 코드사인이 필요하다”고 강조했다.

베라 루빈 플랫폼은 이 문제의식에서 출발했다. 엔비디아는 이번 세대에서 일부 부품 교체가 아닌, 여섯 개 핵심 칩을 동시에 재설계했다. 베라 CPU, 루빈 GPU, NVLink 6 스위치, 커넥트X-9 슈퍼NIC, 블루필드-4 DPU, 스펙트럼-6 이더넷 스위치가 하나의 랙 단위 시스템으로 통합됐다. 황 CEO는 “이번 세대에서는 모든 칩을 다시 설계할 수밖에 없었다”고 말했다.

베라 루빈의 성능 향상은 단순한 연산 수치 경쟁에 그치지 않는다. 황 CEO가 공개한 자료에 따르면, 베라 루빈 기반 시스템은 동일한 대형 혼합전문가(MoE) 모델을 훈련하는 데 필요한 GPU 수를 기존 대비 4분의 1 수준으로 줄일 수 있다. 같은 시간 안에 같은 규모의 모델을 학습시키기 위한 하드웨어 부담 자체가 크게 낮아진 셈이다.

운영 단계에서의 변화도 뚜렷하다. 동일한 전력과 인프라 조건에서 베라 루빈은 AI 팩토리의 전체 토큰 처리량을 최대 10배까지 끌어올릴 수 있도록 설계됐다. 이는 같은 데이터센터에서 훨씬 더 많은 사용자 요청과 추론 작업을 처리할 수 있다는 의미다.

4일 현지시각 라스베이거스 퐁텐블루 호텔에서 열린 엔비디아 쇼케이스 행사에서 2026년 출시 예정인 베라 루빈 AI칩 플랫폼 엔비디아 퀀텀-X 인피니밴드 포토닉스 스위치 부품이 전시되어 있다 사진아주미디어그룹 CES 특별 취재단 — 4일 (현지시각) 라스베이거스 퐁텐블루 호텔에서 열린 엔비디아 쇼케이스 행사에서 2026년 출시 예정인 '베라 루빈' AI칩 플랫폼 '엔비디아 퀀텀-X 인피니밴드 포토닉스 스위치' 부품이 전시되어 있다. [사진=아주미디어그룹 CES 특별 취재단

추론 비용 역시 크게 낮아졌다. 엔비디아는 베라 루빈이 토큰당 생성 비용을 기존 대비 10분의 1 수준으로 낮출 수 있다고 설명했다. 황 CEO는 “추론은 이제 한 번의 응답이 아니라 생각하는 과정”이라며, 길어지는 추론과 에이전트형 AI 환경에서 비용 구조 개선이 핵심 과제가 되고 있다고 말했다.

플랫폼의 중심에는 새로 설계된 베라 CPU와 루빈 GPU가 있다. 황 CEO는 두 칩이 “처음부터 함께 설계됐다”고 강조했다. 베라 CPU는 AI 시스템을 관리하고 조율하는 역할에 초점을 맞췄고, 루빈 GPU는 추론과 학습을 더 빠르고 효율적으로 처리하도록 설계됐다. 그는 “트랜지스터 수는 약 1.6배 늘어났을 뿐”이라며 “시스템 전체를 함께 설계했기 때문에 훨씬 큰 성능 향상을 얻을 수 있었다”고 설명했다.

루빈 GPU에 적용된 NVFP4 연산 방식은 실행 중 정밀도를 자동으로 조절해 정확도와 처리 속도의 균형을 맞춘다. 황 CEO는 “이건 소프트웨어로는 할 수 없는 일”이라며 하드웨어 차원의 설계 필요성을 강조했다.

칩 간 연결 구조 역시 베라 루빈의 핵심 요소다. 베라 루빈 시스템은 NVLink 6를 통해 GPU들이 하나의 컴퓨터처럼 작동하도록 설계됐다. 황 CEO는 “이 랙 안에서 오가는 데이터 양은 전 세계 인터넷 전체보다 많다”고 말하며, 대규모 AI 모델을 효율적으로 다루기 위한 연결 구조의 중요성을 언급했다.

AI가 긴 대화를 이어가는 과정에서 커지는 컨텍스트 메모리 문제도 베라 루빈의 주요 설계 대상이다. 황 CEO는 “AI는 매 토큰마다 전체 모델과 작업 메모리를 반복해서 읽고 쓴다”며, 이를 위해 메모리 구조를 연산 자원 가까이에 배치하는 접근이 필요하다고 설명했다. 베라 루빈은 블루필드-4를 활용해 이러한 병목을 줄이도록 설계됐다.

보안과 안정성 역시 플랫폼 설계에 포함됐다. 베라 루빈은 CPU와 GPU, 칩 간 연결 구간 전반에 암호화를 적용해 연산 중에도 데이터와 모델이 보호되도록 했다. 황 CEO는 “모든 경로가 암호화돼 있다”고 말했다.

황 CEO는 엔비디아의 역할 변화도 분명히 했다. 그는 “AI는 이제 칩 하나로 해결되는 문제가 아니다”라며, 엔비디아가 AI를 만들고 운영하는 데 필요한 전체 스택을 제공하는 방향으로 나아가고 있다고 밝혔다.

베라 루빈은 현재 양산 단계에 들어갔으며, 엔비디아는 2026년 하반기부터 파트너사를 중심으로 본격적인 공급에 나설 예정이다.