"엔비디아 칩 오류에 빅테크 1년간 '진땀'…오라클 1억 달러 손실도"

  • 부분 환불·신형 칩 교체로 사태 수습

엔비디아 사진로이터연합뉴스
엔비디아 [사진=로이터·연합뉴스]
엔비디아의 최신 그래픽처리장치(GPU) '블랙웰'이 서버 구축 과정에서 기술적 문제를 일으키며 주요 빅테크 기업들이 예상치 못한 부담을 떠안은 것으로 나타났다.

미 정보기술(IT) 전문매체 디인포메이션은 6일(현지시간) 내부 소식통을 인용해 오픈AI, 메타 등 주요 AI 기업들이 지난해 내내 블랙웰 기반 AI 서버를 구축·최적화하는 과정에서 기술적 난관에 직면했다고 보도했다.

보도에 따르면 블랙웰 이전 세대의 엔비디아 칩은 납품 이후 수주 내 설치와 가동이 가능했으나, 블랙웰은 대규모 시스템으로 연결하는 과정에서 구조적 복잡성이 크게 높아졌다. 칩 성능보다는 대규모 시스템으로 구성하는 과정에서의 기술적 부담이 문제로 지목된다.

특히 72개의 '그레이스 블랙웰(GB)' 칩을 연결하는 과정에서 발열과 연결 오류가 빈번하게 발생했다. 연결된 칩 중 하나만 오작동해도 수천 개 칩으로 구성된 전체 클러스터가 장애를 일으키거나 중단되는 사례도 있었다.

이로 인해 기업들은 중단된 연산 작업을 마지막 저장 시점부터 다시 시작해야 했고, 이 과정에서 수천만∼수백만 달러의 추가 비용을 부담해야 했다고 디인포메이션은 전했다.

AI 데이터센터를 구축하는 오라클은 이러한 기술적 문제로 약 1억 달러(약 1463억원)의 손실을 감수한 것으로 전해졌다. 텍사스주 데이터센터에 설치된 블랙웰 서버에 대해 고객사인 오픈AI가 한동안 사용 승인을 늦추면서 사업 일정에 차질이 발생했기 때문이다.

엔비디아는 문제 제기 이후 일부 고객사에 부분 환불이나 할인 혜택을 제공하며 대응에 나섰다. 해당 이슈는 지난해 3분기 개선 버전인 'GB300'을 출시한 이후 점차 수습 국면에 들어섰다. 오픈AI 등 주요 고객사들은 아직 납품받지 않은 기존 블랙웰 칩을 새 버전으로 교체하고 있는 것으로 알려졌다. 엔비디아는 출시가 예정된 신형 '베라 루빈' 칩에도 이와 같은 개선 사항을 적용했다.

한편 엔비디아는 AI 칩 수요 급증에 따른 공급 부족 여파로 올해 게임용 GPU를 출시하지 않기로 한 것으로 전해졌다. 게임용 그래픽칩 설계로 출발한 엔비디아가 게임용 GPU를 내놓지 않는 것은 30여년 만에 처음이다.

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
댓글0
0 / 300

댓글을 삭제 하시겠습니까?

닫기

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기