[자료제공: 엔비디아]
AI 컴퓨팅 기술 분야의 선두주자인 엔비디아는 전세계 슈퍼컴퓨터 센터 6곳에 지난 14일 공식발표한 자사의 암페어 아키텍처를 기반으로 설계된 A100 GPU가 도입됐다고 밝혔다.
미국과 독일에 위치한 슈퍼컴퓨터 센터들은 약 13,000개의 A100 GPU를 사용해 천체 물리학에서 바이러스 미생물학에 이르는 다양한 분야에서 엑사스케일 시대를 열 예정이다.
A100 GPU는 64비트 부동소수점 연산을 사용하는 시뮬레이션을 위해 최대 250페타플롭(PF) 이상의 성능을 제공한다. 이는 혼합정밀수학을 사용하고 희소성 지원을 위해 A100 GPU를 사용하는 인공지능(AI) 추론 작업에는 무려 8.07 엑사플롭스급의 성능을 제공한다.
연구원들은 이러한 컴퓨팅 성능을 통해 과학을 다각도로 발전시키고, 더 방대한 모델을 시뮬레이션하고, 고도화된 딥 네트워크를 훈련·배포하며, AI 지원 시뮬레이션이라는 새로운 하이브리드 분야를 주도할 수 있게 됐다. 일례로, 미국 아르곤 국립 연구소(Argonne National Laboratory)의 연구원들은 150만 개의 원자로 구성된 코로나 바이러스 표면에 있는 단백질 스파크의 핵심 부위를 시뮬레이션 하며 코로나19 백신을 개발하고 있다. 아르곤 국립 연구소는 이를 위해 24개의 엔비디아 DGX A100 시스템 클러스터를 활용할 예정이다.
또한, 미국 에너지부 버클리 국립 연구소의 국립에너지연구소 과학컴퓨팅센터(NERSC)는 프리-엑사스케일 슈퍼컴퓨터인 펄머터에 6,200개의 GPU를 구축하기 위해 HPE와 협력하고 있다. NERSC의 디렉터 스도프 도산지는 “NERSC의 과학 및 알고리즘 분야에서 현재 사용중인 코리 시스템의 KNL CPU 노드를 V100 GPU 한 개로 대체했을 때 성능이 최대 5 배 빨라졌다. 슈퍼컴퓨터 펄머터에 A100를 탑재할 경우 성능이 훨씬 향상될 것으로 기대된다”고 전했다.
# 시뮬레이션과 AI 프로젝트를 추진 중인 엑사스케일 컴퓨팅 팀
NERSC의 엑사스케일 컴퓨팅 전담팀은 대규모 시뮬레이션, 데이터 애널리틱스, 딥 러닝을 활용하는 약 30개의 펄머터 프로젝트를 계획하고 있다. 이 중에는 강화 학습을 통해 광원 실험을 제어하는 프로젝트 등 고성능컴퓨팅(HPC)과 AI를 결합해 사용하는 프로젝트와 고에너지 물리 탐지기에서 많은 비용이 드는 시뮬레이션을 재현하기 위해 생성 모델을 사용하는 프로젝트도 있다.
이미 A100 GPU의 배정밀도 텐서 코어를 탑재해 NERSC의 HPC 애플리케이션 중 두 개의 프로토타입이 제작됐으며, 이는 이전 세대 볼타(Volta) GPU 대비 성능이 대폭 개선됐다. NERSC의 수석 아키텍트 니콜라스 라이트(Nicholas Wright)는 “펄머터 슈퍼컴퓨터에는 MPI, 오픈 MP(OpenMP), 오픈ACC(OpenACC), 쿠다(CUDA), 최적화된 수학 라이브러리 등 사용자가 요구하고 기대하는 모든 프로그래밍 모델을 지원하는 컴파일러가 필요하다. 엔비디아 HPC SDK는 이 모든 조건을 충족한다”고 설명했다.
# 독일 율리히 슈퍼컴퓨팅 센터의 AI 프로젝트에 도입된 A100
A100은 프랑스 슈퍼컴퓨터 제조기업 아토스(Atos)가 제작한 독일 율리히(Jülich) 슈퍼컴퓨팅 센터의 새로운 70PF 시스템에 탑재됐으며, AI 프로젝트에 집중적으로 사용될 예정이다.
그 중 비교적으로 느린 대규모 대기 시뮬레이션을 사용하는 기존 시스템을 보완하면서 단기간에 빠른 기상 예측을 제공하는 것을 목표로 하는 딥 레인 프로젝트에 도입된다. 이 외에도 수천 개의 고해상도 2D 뇌 이미지를 딥 러닝으로 조합해 인간 두뇌의 섬유 지도를 구축하는 프로젝트에도 활용될 예정이다. 또한, 율리히 센터가 도입한 새로운 A100 시스템은 물질을 구성하는 아원자 단위 쿼크(quark)의 응집력을 연구하고, 기후 과학 프로젝트를 통해 지표면과 지하수 흐름을 모델링하는데 기여하게 된다.
# 대규모 데이터 처리 시스템을 위한 고속 NV링크
카를스루에 공과대학(Karlsruhe Institute of Technology, 이하 KIT)은 엔비디아 멜라녹스(Mellanox) 200Gb 인피니밴드(InfiniBand) 네트워크에 740개의 A100 GPU를 탑재한 새로운 17페타플롭급 시스템을 구축하기 위해 레노버(Lenovo)와 파트너십을 맺었다. KIT는 이 시스템을 통해 다음과 같은 난제에 대응할 예정이다.
- 기후 과학 목적의 킬로미터 단위의 대기 시뮬레이션
- 폴딩앳홈(Folding@home) 지원 등 코로나19 대응을 위한 연구
- 대형 강입자 충돌기(LHC)용 힉스 보손(Higgs boson) 이상의 입자 물리학 연구
- 리튬 이온 배터리를 대체 가능한 신소재 연구
- 로보틱스, 언어 처리, 재생 가능 에너지용 AI 애플리케이션 개발
KIT 슈퍼컴퓨팅 센터장 겸 컴퓨터 과학 및 수학 교수인 마틴 프랭크(Martin Frank)는 “KIT에서는 데이터 집약적 시뮬레이션과 AI 워크플로우를 집중적으로 연구하고 있다. 따라서 새로운 GPU를 상호 연결하는 3세대 NV링크(NVLink)를 활용하고 있다. 또한 노드 당 4개 GPU가 아닌 최대 28개 GPU를 효과적으로 제공하는 멀티-인스턴스 GPU 기능에 대한 기대가 크다”고 말했다.
뮌헨 근방에 위치한 막스 플랑크 연구소(Max Planck Institute) 컴퓨터센터는 레노버와 합작해 768개의 엔비디아 A100 GPU로 구동되는 레이븐-GPU(Raven-GPU)라는 슈퍼컴퓨터 시스템을 구축하고 있다. 레이븐-GPU는 천체 물리학, 생물학, 이론 화학, 고급 재료학과 같은 분야에 사용된다. 막스 플랑크 연구소는 연말까지 레이븐-GPU를 설치하는 것을 목표로 하고 있으며 현재 A100에 최적화된 애플리케이션 지원 요청을 받고 있다.