로그인

회원가입 | ID/PW 찾기

실시간정보

엔비디아, 물리 AI 개발자 커뮤니티 위한 코스모스 WFM 공개

디스이즈게임(디스이즈게임) 2025-01-09 10:54:06
디스이즈게임 (디스이즈게임 기자) [쪽지]
[소식]
/webzine/event/nboard/225?n=204122 주소복사

엔비디아, 물리 AI 개발자 커뮤니티 위한 코스모스 WFM 공개

[자료제공:엔비디아]

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 물리 AI 개발 가속화를 위한 플랫폼인 엔비디아 코스모스(NVIDIA Cosmos)에 월드 파운데이션 모델(world foundation model, WFM) 제품군을 출시했다. WFM은 가상 환경의 미래 상태를 예측하고 물리 인식 비디오를 생성할 수 있는 신경망이다. 개발자들이 차세대 로봇과 자율주행차(autonomous vehicle, AV)를 개발할 수 있도록 지원한다.

WFM은 거대 언어 모델(large language model, LLM)만큼이나 기본이 되는 모델이다. 텍스트, 이미지, 비디오, 움직임 등의 입력 데이터를 사용해 장면 내 오브젝트의 공간 관계와 물리적 상호 작용을 정확하게 모델링하는 방식으로 가상 세계를 생성하고 시뮬레이션한다.

엔비디아는 CES에서 물리 기반 시뮬레이션과 합성 데이터 생성을 위한 코스모스 WFM의 첫 번째 단계를 발표했다. 또한 최첨단 토크나이저, 가드레일, 가속화된 데이터 처리와 큐레이션 파이프라인, 모델 맞춤화와 최적화를 위한 프레임워크도 발표했다.

연구자와 개발자는 기업 규모에 관계없이 상업적 사용을 허용하는 엔비디아의 허용형 오픈 모델 라이선스에 따라 코스모스 모델을 자유롭게 사용할 수 있다. AI 에이전트를 구축하는 기업들은 CES에서 공개된 새로운 오픈 엔비디아 라마 네모트론(Llama Nemotron)과 코스모스 네모트론(Cosmos Nemotron) 모델도 사용할 수 있다.

코스모스의 최첨단 모델의 개방성은 로보틱스와 AV 기술을 구축하는 물리 AI 개발자의 제약을 해소한다. 나아가 모든 규모의 기업이 물리 AI 애플리케이션을 보다 빠르게 시장에 출시할 수 있도록 돕는다.

개발자는 코스모스 모델을 직접 사용해 물리 기반 합성 데이터를 생성하거나, 엔비디아 네모(NeMo) 프레임워크를 활용해 특정 물리 AI 설정에 맞게 자체 비디오로 모델을 미세 조정할 수 있다.

로보틱스 회사인 1X, 어질리티 로보틱스(Agility Robotics), 샤오펑(XPENG)와 AV 개발사인 우버(Uber), 와비(Waabi) 등 물리 AI 선도 기업들은 이미 코스모스와 협력해 모델 개발을 가속하고 개선하고 있다.

개발자는 엔비디아 API 카탈로그에서 최초의 코스모스 자동 회귀와 확산 모델을 미리 확인할 수 있다. 또한 엔비디아 NGC 카탈로그와 허깅 페이스(Hugging Face)에서 모델 제품군과 미세 조정 프레임워크를 다운로드할 수 있다.

물리 AI를 위한 WFM
코스모스 WFM은 물리 인식 비디오 생성을 위한 개방형 확산과 자동 회귀 트랜스포머 모델 모음이다. 이 모델은 2천만 시간의 실제 인간 상호 작용, 환경, 산업, 로보틱스, 운전 데이터에서 9,000조 개의 토큰으로 훈련됐다. 모델은 세 가지 범주로 나뉜다. 모델 범주로는 실시간, 저지연 추론과 엣지 배포에 최적화된 모델을 위한 나노(Nano), 고성능 기본 모델을 위한 슈퍼(Super), 최고의 품질과 충실도를 제공하며 맞춤형 모델을 추출하는 데 가장 적합한 울트라(Ultra)가 있다.

확산 모델은 엔비디아 옴니버스(Omniverse) 3D 출력과 함께 사용하면 제어 가능한 고품질 합성 비디오 데이터를 생성해 로봇과 AV 인식 모델의 부트스트랩 훈련을 지원한다. 자동 회귀 모델은 입력 프레임과 텍스트를 기반으로 비디오 프레임 시퀀스에서 다음에 나올 내용을 예측한다. 이를 통해 실시간 다음 토큰 예측이 가능해져 물리 AI 모델이 차선책을 예측할 수 있는 통찰력을 갖게 된다.

개발자는 코스모스의 오픈 모델을 사용해 텍스트-투-월드와 비디오-투-월드를 생성할 수 있다. 각각 40억에서 140억 개의 파라미터가 포함된 확산과 자동 회귀 모델 버전은 현재 NGC 카탈로그와 허깅 페이스에서 사용할 수 있다. 또한 텍스트 프롬프트를 개선하기 위한 120억 개의 파라미터 업샘플링 모델, 증강 현실에 최적화된 70억 개의 파라미터 비디오 디코더, 책임감 있고 안전한 사용을 보장하는 가드레일 모델도 사용할 수 있다.

엔비디아는 맞춤화의 가능성을 보여주기 위해 AV용 멀티센서 뷰 생성 등 수직 애플리케이션을 위한 미세 조정된 모델 샘플도 공개하고 있다.

로보틱스, AV 애플리케이션의 발전
코스모스 WFM은 훈련 데이터세트를 보강하기 위한 합성 데이터 생성, 실제 세계 배포 전 물리 AI 모델을 테스트하고 디버깅하기 위한 시뮬레이션, 가상 환경에서의 강화 학습을 통해 AI 에이전트 학습을 가속화할 수 있다.

개발자는 엔비디아 옴니버스에서 구성된 3D 장면으로 코스모스를 컨디셔닝해 제어 가능한 대량의 물리 기반 합성 데이터를 생성할 수 있다.

와비는 자율주행차를 시작으로 물리 세계를 위한 생성형 AI를 개척하고 있다. AV 소프트웨어 개발과 시뮬레이션을 위한 비디오 데이터 검색과 큐레이션에 코스모스를 사용하는 방안을 검토하고 있다. 이를 통해 와비 월드(Waabi World)를 기반으로 하는 업계 선도적인 안전 접근 방식을 더욱 가속화할 예정이다. 와비 월드는 차량이 겪을 수 있는 모든 상황을 실제 세계에서 일어난 것과 같은 수준의 사실감으로 구현할 수 있는 생성형 AI 시뮬레이터이다.

로보틱스에서 WFM은 합성 가상 환경 또는 세계를 생성해 로봇 학습을 위한 보다 저렴하고 효율적이며 제어 가능한 공간을 제공할 수 있다. 구현형 AI 스타트업인 힐봇(Hillbot)은 코스모스를 사용해 테라바이트 규모의 고충실도 3D 환경을 생성해 데이터 파이프라인을 강화하고 있다. AI 생성 데이터는 로봇 훈련과 운영을 개선해 더 빠르고 효율적인 로봇 숙련도를 구현하고, 산업과 일상 작업의 성능 향상을 지원할 것이다.

두 산업 모두에서 개발자는 엔비디아 옴니버스와 코스모스를 멀티버스 시뮬레이션 엔진으로 사용할 수 있다. 이를 통해 물리 AI 정책 모델이 특정 작업을 실행하기 위해 취할 수 있는 모든 가능한 미래 경로를 시뮬레이션하고, 모델이 최적의 경로를 선택할 수 있도록 지원한다.

데이터 큐레이션과 코스모스 모델의 훈련은 엔비디아 DGX 클라우드(DGX Cloud)를 기반으로 수천 개의 엔비디아 GPU를 활용했다. 엔비디아 DGX 클라우드는 모든 주요 클라우드에서 가속화된 컴퓨팅 클러스터를 제공하는 고성능 완전 관리형 AI 플랫폼이다. 코스모스를 채택하는 개발자는 DGX 클라우드를 사용해 코스모스 모델을 쉽게 배포할 수 있으며, 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼을 통해 추가 지원을 받을 수 있다.

엔비디아 코스모스로 맞춤화와 배포하기
코스모스 플랫폼에는 파운데이션 모델 외에도 데이터 처리와 큐레이션 파이프라인이 포함된다. 이는 엔비디아 네모 큐레이터(NeMo Curator)에 의해 구동되고 엔비디아 데이터센터 GPU에 최적화된다.

로보틱스와 AV 개발자는 수백만 시간 또는 수십억 시간의 실제 녹화 영상을 수집해 페타바이트 규모의 데이터를 생성한다. 코스모스를 통해 개발자는 엔비디아 호퍼(Hopper) GPU에서는 단 40일, 엔비디아 블랙웰(Blackwell) GPU에서는 단 14일 만에 2,000만 시간의 데이터를 처리할 수 있다. 동일한 전력 소비를 가진 CPU 시스템에서 실행되는 최적화되지 않은 파이프라인을 사용하면 동일한 양의 데이터를 처리하는 데 3년 이상이 소요된다.

코스모스 플랫폼은 강력한 비디오와 이미지 토크나이저 제품군도 제공한다. 이는 다양한 비디오 압축률로 비디오를 토큰으로 변환해 다양한 트랜스포머 모델을 훈련할 수 있다. 코스모스 토크나이저는 최신 방법보다 8배 더 높은 총 압축률과 12배 더 빠른 처리 속도를 제공한다. 이로써 훈련과 추론 모두에서 우수한 품질을 제공하고 계산 비용을 절감할 수 있다.

개발자는 허깅 페이스와 깃허브(GitHub)를 통해 엔비디아의 오픈 모델 라이선스에 따라 토크나이저에 액세스할 수 있다. 코스모스를 사용하는 개발자는 높은 처리량의 AI 훈련을 지원하는 GPU 가속 프레임워크인 네모(NeMo) 프레임워크에서 제공하는 모델 훈련과 미세 조정 기능을 활용할 수도 있다.

안전하고 책임감 있는 AI 모델 개발
현재 엔비디아 오픈 모델 라이선스 계약(Open Model License Agreement)에 따라 개발자가 사용할 수 있는 코스모스는 엔비디아의 신뢰할 수 있는 AI 원칙에 따라 개발됐다. 이는 차별 금지, 개인 정보 보호, 안전, 보안, 투명성을 포함한다.

코스모스 플랫폼에는 코스모스 가드레일(Cosmos Guardrails)이 포함된다. 이는 안전을 위해 전처리 과정에서 유해한 텍스트와 이미지 입력을 감소시키고 후처리 과정에서 생성된 비디오를 선별하는 전용 모델 제품군이다. 개발자는 맞춤 애플리케이션을 위해 이러한 가드레일을 더욱 강화할 수 있다.

엔비디아 API 카탈로그의 코스모스 모델에는 AI가 생성한 시퀀스를 식별할 수 있는 워터마킹 시스템 또한 내장된다.

엔비디아 코스모스는 엔비디아 리서치(Research)에서 개발됐다. 모델 개발과 벤치마크에 대한 자세한 내용은 연구 논문 "물리 AI를 위한 코스모스 WFM 플랫폼(Cosmos World Foundation Model Platform for Physical AI)"에서 확인할 수 있다. 추가 정보를 제공하는 모델 카드는 허깅 페이스에서 확인할 수 있다.


최신목록 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10