2025년 5월 12일 – AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(www.nvidia.co.kr)가 엔비디아 지포스(NVIDIA GeForce) RTX GPU와 쿠다(CUDA) 12.8을 통해 로컬 거대 언어 모델(large language model, LLM) 실행 도구인 'LM 스튜디오(LM Studio)'의 성능을 향상했다고 밝혔다. 이번 업데이트로 모델 로드와 응답 시간이 크게 개선됐다.
문서 요약에서 맞춤형 소프트웨어 에이전트에 이르기까지 AI 사용 사례가 계속 확장되고 있다. 이에 따라 개발자와 AI 애호가들은 LLM을 더 빠르고 유연하게 실행할 수 있는 방법을 찾고 있다. 엔비디아 지포스 RTX GPU가 탑재된 PC에서 로컬로 모델을 실행하면 고성능 추론, 향상된 데이터 프라이버시, AI 배포와 통합에 대한 완전한 제어가 가능하다. 무료로 체험할 수 있는 LM 스튜디오와 같은 도구는 이러한 로컬 AI 실행을 간편하게 구현할 수 있도록 지원한다. 이를 통해 사용자는 자신의 하드웨어에서 LLM을 탐색하고 구축할 수 있다.
LM 스튜디오는 로컬 LLM 추론을 위해 가장 널리 채택된 도구 중 하나로 자리 잡았다. 고성능 llama.cpp 런타임을 기반으로 구축된 이 애플리케이션은 모델을 완전히 오프라인에서 실행할 수 있도록 한다. 또한 사용자 지정 워크플로우에 통합하기 위해 오픈AI(OpenAI) 호환 API(application programming interface) 엔드포인트 역할도 수행할 수 있다.
LM 스튜디오 0.3.15 버전은 쿠다 12.8을 통해 RTX GPU에서 성능이 향상되면서 모델 로드와 응답 시간이 크게 개선됐다. 또한 이번 업데이트에는 '툴_초이스(tool_choice)' 파라미터를 통한 도구 활용 개선, 시스템 프롬프트 편집기 재설계 등 개발자 중심의 새로운 기능도 추가됐다.
LM 스튜디오의 최신 개선 사항은 성능과 사용성을 향상시켜 RTX AI PC에서 역대 최고 수준의 처리량을 제공한다. 즉, 더 빠른 응답, 더 신속한 상호작용, 그리고 로컬에서 AI를 구축하고 통합하기 위한 더 나은 툴을 제공한다.
일상적인 앱과 AI 가속의 만남
LM 스튜디오는 유연성을 염두에 두고 제작돼 간단한 실험부터 맞춤형 워크플로우 통합까지 다양한 용도로 활용할 수 있다. 사용자는 데스크톱 채팅 인터페이스를 통해 모델과 상호작용하거나 개발자 모드를 활성화해 오픈AI 호환 API 엔드포인트를 제공할 수 있다. 이를 통해 로컬 LLM을 비주얼 스튜디오 코드(VS Code)나 맞춤형 데스크톱 에이전트와 같은 앱의 워크플로우에 쉽게 연결할 수 있다.
예를 들어, LM 스튜디오는 마크다운 기반의 인기 지식 관리 애플리케이션인 옵시디언(Obsidian)에 통합될 수 있다. 사용자는 텍스트 제너레이터(Text Generator), 스마트 커넥션(Smart Connections)과 같은 커뮤니티 개발 플러그인을 사용해 콘텐츠를 생성하고, 연구를 요약하고, 자신의 노트 검색을 수행할 수 있다. 이 모든 기능은 LM 스튜디오를 통해 실행되는 로컬 LLM으로 구동된다. 이러한 플러그인은 LM 스튜디오의 로컬 서버에 직접 연결되므로 클라우드에 의존하지 않고도 빠르고 비공개적인 AI 상호작용이 가능하다.
LM 스튜디오 0.3.15 업데이트에는 개발자를 위한 새로운 기능이 추가됐다. 그중에는 '툴_초이스' 매개변수를 통한 도구 사용에 대한 세분화된 제어 기능과 더 길거나 복잡한 프롬프트를 처리할 수 있는 시스템 프롬프트 편집기 업그레이드 등이 포함된다. 개발자는 툴_초이스 파라미터를 통해 도구 호출을 강제하거나, 완전히 비활성화하거나, 모델이 동적으로 결정하도록 허용하는 등 모델이 외부 도구와 연동하는 방식을 제어할 수 있다. 이러한 유연성은 구조화된 상호작용, 검색 증강 생성(retrieval-augmented generation, RAG) 워크플로우 또는 에이전트 파이프라인 구축에 특히 유용하다.
이러한 업데이트는 LLM을 사용하는 개발자의 실험과 프로덕션 사용 사례 모두에서 효율성을 높인다.
LM 스튜디오는 젬마(Gemma), 라마3(Llama 3), 미스트랄(Mistral), 오르카(Orca) 등 광범위한 개방형 모델과 4비트부터 고정밀까지 다양한 양자화 형식을 지원한다. 주요 사용 사례로는 RAG, 긴 컨텍스트 윈도우가 있는 멀티턴(multi-turn) 채팅, 문서 기반 질의응답, 로컬 에이전트 파이프라인 등이 있다. 또한 엔비디아 RTX로 가속된 llama.cpp 소프트웨어 라이브러리로 구동되는 로컬 추론 서버를 통해 RTX AI PC에서 로컬 LLM을 쉽게 통합할 수 있다.
소형 RTX 기반 시스템에서 효율성을 최적화하든, 고성능 데스크톱에서 높은 처리량을 달성하든, LM 스튜디오는 RTX에서 완전한 제어, 속도, 프라이버시를 모두 제공한다.
RTX GPU에서 최대 처리량 경험
LM 스튜디오 가속화의 핵심은 소비자 하드웨어에서 효율적인 추론을 제공하도록 설계된 오픈 소스 런타임인 llama.cpp이다. 엔비디아는 LM 스튜디오, llama.cpp 커뮤니티와 협력해 RTX GPU 성능을 극대화하기 위해 몇 가지 최적화 사항을 통합했다. 주요 최적화 사항은 다음과 같다.
- 쿠다 그래프 활성화: 여러 GPU 작업을 단일 CPU 호출로 그룹화해 CPU 오버헤드를 줄이고 모델 처리량을 최대 35%까지 개선한다.
- 플래시 어텐션 쿠다 커널(Flash attention CUDA kernel): 트랜스포머 모델에서 중요한 작업인 LLM의 어텐션 처리 방식을 개선해 처리량을 최대 15%까지 향상시킨다. 이 최적화를 통해 메모리 또는 연산 요구 사항을 늘리지 않고도 더 긴 컨텍스트 윈도우를 사용할 수 있다.
- 최신 RTX 아키텍처 지원: 쿠다 12.8로 업데이트된 LM 스튜디오는 지포스 RTX 20 시리즈부터 엔비디아 블랙웰(Blackwell)급 GPU까지 모든 범위의 RTX AI PC와의 호환성을 보장한다. 이는 사용자가 노트북에서 하이엔드 데스크톱까지 로컬 AI 워크플로우를 유연하게 확장할 수 있도록 지원한다.
호환되는 드라이버를 사용하면 LM 스튜디오가 쿠다 12.8 런타임으로 자동 업그레이드되므로 모델 로드 시간이 훨씬 빨라지고 전반적인 성능이 향상된다. 이러한 향상된 기능은 얇고 가벼운 노트북부터 고성능 데스크톱, 워크스테이션에 이르기까지 모든 범위의 RTX AI PC에서 더 원활한 추론과 빠른 응답 시간을 제공한다.
LM 스튜디오 시작하기
LM 스튜디오는 윈도우, 맥OS(macOS), 리눅스에서 무료로 다운로드해 실행할 수 있다. 최신 0.3.15 버전과 지속적인 최적화를 통해 사용자는 성능, 맞춤화, 사용성에서 지속적인 개선을 기대할 수 있으며, 로컬 AI를 더 빠르고 유연하며 접근 가능하게 만든다.
사용자는 데스크톱 채팅 인터페이스를 통해 모델을 로드하거나 개발자 모드를 활성화해 오픈AI 호환 API를 사용할 수 있다. 빠르게 시작하려면 LM 스튜디오의 최신 버전을 다운로드하고 애플리케이션을 실행하면 된다. LM 스튜디오는 모델 프리셋, 다양한 양자화 형식, 미세 조정된 추론을 위한 툴_초이스와 같은 개발자 제어 옵션을 지원한다.
LM 스튜디오의 성능 개선에 관심이 있는 사용자는 커뮤니티와 엔비디아 주도의 성능 개선이 지속적으로 반영되는 llama.cpp 깃허브(GitHub) 리포지토리에 참여할 수 있다.
RTX AI 개러지(RTX AI Garage) 블로그 시리즈는 매주 커뮤니티 주도의 AI 혁신과 엔비디아 NIM 마이크로서비스, AI 블루프린트(AI Blueprint) 학습을 원하는 사용자에게 유용한 콘텐츠를 제공하고 있다. 또한, AI PC와 워크스테이션에서 AI 에이전트, 크리에이티브 워크플로우, 디지털 휴먼, 생산성 애플리케이션 등을 구축하고자 하는 이들을 위한 정보를 제공한다.
페이스북(Facebook), 인스타그램(Instagram), 틱톡(TikTok), X에서 엔비디아 AI PC에 대해 알아보고, RTX AI PC 뉴스레터를 구독해 최신 정보를 받아볼 수 있다. 링크드인(LinkedIn)과 X에서 엔비디아 워크스테이션(Workstation)을 팔로우 할 수 있다. 여기에서 LM 스튜디오 최신 버전의 자세한 다운로드 방법을 확인할 수 있다.






