마이크로소프트 애저, 엔비디아 A100 GPU 탑재 인스턴스 공개

디스이즈게임(디스이즈게임) 2020-08-24 10:44:34

[자료제공: 엔비디아]

AI 컴퓨팅 기술 기업 엔비디아는 마이크로소프트 애저가 엔비디아 A100 GPU가 탑재된 최초의 인스턴스를 공개했다고 밝혔다.

마이크로소프트는 자사의 연례 개발자 행사인 빌드 2020에서 대규모 AI에 대한 비전을 소개했다. 해당 이니셔티브는 최첨단 AI 슈퍼컴퓨팅과 차세대 AI를 가능케 하는 새로운 종류의 대규모 AI 모델을 골자로 한다.

대규모 모델의 장점은 AI 슈퍼컴퓨팅을 이용해 방대한 양의 데이터를 한 번만 훈련하면 훨씬 작은 데이터셋과 리소스를 가진 다양한 작업 및 도메인을 정밀 조정할 수 있다는 점이다. 모델이 더 많은 파라미터를 가질수록 데이터의 어려운 뉘앙스를 잘 파악할 수 있다.

이는 170억개의 파라미터를 가진 마이크로소프트의 언어 모델로, 처음 본 질문에 답하거나 문서를 요약할 수 있을 정도의 언어 이해력을 가진 Turing-NLG를 통해 입증됐다.

이 같은 자연어 모델들은 1년 전의 최신 모델보다 그 규모가 훨씬 크며, 과거의 이미지 중심 모델보다 수십 배 큰 규모로 빙, 워드, 아웃룩, 다이나믹스에서 다양한 작업을 수행하고 있다.

이러한 규모의 훈련 모델은 머신 내부와 전체에 걸쳐 고대역폭 네트워크로 상호 연결된 전문 AI 가속기가 갖춰진 수백 대의 머신으로 구성된 대규모 클러스터를 필요로 한다. 따라서 마이크로소프트는 제품 전반에 걸쳐 새로운 자연어 생성 능력과 이해력을 구현하고, 안전한 AI를 개발한다는 오픈AI의 미션을 지원하기 위해 이러한 클러스터를 애저에 구축했다.

마이크로소프트의 최신 클러스터는 AI 슈퍼 컴퓨터라고 불릴 만큼 많은 통합된 컴퓨팅 성능을 제공한다. 또한, 오픈 AI를 위해 구축된 클러스터는 현재까지 공개된 전세계 상위 5대 슈퍼컴퓨터 성능에 도달했다.

지난 5월, 오픈 AI는 해당 슈퍼 컴퓨터를 사용해 1,750억개의 파라미터를 가진 GP5-3 모델과 함께 이 모델이 시를 쓰거나 번역을 하는 등의 광범위한 작업을 어떻게 수행하는지 선보였다.

마이크로소프트가 대규모 컴퓨팅 클러스터, 선도적인 네트워크 설계, 그리고 애저 머신러닝, 오닉스 런타임, 기타 애저 AI 서비스를 포함한 소프트웨어 스택에서 이를 관리하기 위해 수행한 작업들은 대규모 AI 전략과 직결된다. 이러한 과정을 통해 창출되는 혁신은 궁극적으로 애저가 규모에 상관없이 모든 고객의 AI 요구사항을 효과적으로 충족시키는 것으로 이어진다.

일례로, NDv2 VM 시리즈를 통해 애저는 엔비디아 멜라녹스 인피니밴드 네트워킹으로 연결된 엔비디아 V100 텐서 코어 GPU를 탑재한 가상머신 클러스터를 제공하는 최초이자 유일한 퍼블릭 클라우드가 됐다.

더불어, 마이크로소프트는 새로운 ND A100 v4 VM 시리즈도 공개했다. 이는 가장 강력하고 대규모로 확장이 가능한 AI VM으로, 수백 대의 VM에 걸쳐 8개부터 수천 개에 이르는 상호 연결된 엔비디아 GPU를 탑재해 온디맨드 방식으로 이용 가능하다.

ND A100 v4 VM 시리즈는 단일 VM과 8개의 엔비디아 암페어 A100 텐서 코어 GPU로 시작하지만, 인간의 두뇌가 상호 연결된 뉴런으로 구성된 것처럼 ND A100 v4 기반 클러스터는 전례없는 VM당 1.6TB/s의 상호연결 대역폭으로 최대 수천 개의 GPU까지 확장 가능하다.

각 GPU에는 토폴로지 제한이 없는 전용 200GB/s 엔비디아 멜라녹스 HDR 인피니밴드 연결이 제공된다. 수십, 수백, 또는 수천 개의 GPU가 멜라녹스 인피니밴드 HDR 클러스터의 일부로 함께 작동해 모든 수준의 AI 목표를 달성할 수 있다.

여타 퍼블릭 클라우드 보다 16배 높은 전용 GPU-투-GPU 대역폭을 통해 모델을 처음부터 훈련하고 자체 데이터로 훈련을 계속하거나, 혹은 원하는 작업에 맞게 미세 조정하는 등 어떤 AI 목표든 빠르게 달성할 수 있다.

ND A100 v4 VM 시리즈는 PCIe 4.0과 같은 최신 하드웨어 표준을 모든 주요 시스템 구성요소에 적용하여, 애저용으로 완전히 새롭게 설계된 AMD 롬 기반 플랫폼으로 지원된다. 각 VM 내에 있는 PCIe 4.0과 GPU-투-GPU 상호연결을 위한 엔비디아의 3세대 NV링크 아키텍처는 이전보다 2배 이상 빠른 속도로 시스템간 데이터 이동을 가능케 한다.

이를 통해 고객들은 엔지니어링 작업없이 엔비디아 V100 GPU를 기반으로 하는 이전 세대 시스템 대비 두 배에서 세 배까지 컴퓨팅 성능을 즉시 향상시킬 수 있다. 희소성 가속이 가능한 다중 정밀도 텐서 코어 및 MIG와 같은 새로운 A100 기능을 활용하면 컴퓨팅 성능을 최대 20배까지 개선 가능하다.

엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄 이안 벅은 "애저는 엔비디아의 가장 진보된 컴퓨팅 및 네트워킹 기능을 통해 클라우드 상에서 혁신적인 AI 플랫폼을 설계했다. 엔비디아 A100 GPU의 단일 파티션에서부터 엔비디아 멜라녹스 인피니밴드 상호연결을 사용하는 수천 개의 A100 GPU까지 확장될 수 있는 유연한 아키텍처를 통해, 애저 고객은 세계에서 가장 까다로운 AI 워크로드를 실행할 수 있게 될 것”이라고 설명했다.

ND A100 v4 VM 시리즈는 VM 스케일 세트와 같은 애저의 확장성 블록을 활용해 모든 크기의 클러스터를 자동적 및 동적으로 투명하게 구성한다. 이를 통해 누구나 어디서든지 원하는 규모의 AI를 구현할 수 있어 AI 슈퍼컴퓨터까지 온디맨드형으로 단 몇 분 만에 인스턴스화할 수 있다. 이후 개별적으로 VM에 액세스하거나 애저 머신러닝 서비스를 사용해 클러스터 전반에서 훈련 작업을 시작하고 관리할 수 있다.

ND A100 v4 VM 시리즈 및 클러스터는 현재 프리뷰 버전으로 제공되고 있으며, 향후 애저 제품 포트폴리오에 추가될 계획이다.