Zadara가 어떻게 ‘멀티테넌트 추론(Inference) 클라우드’를 위한 소프트웨어 레퍼런스 아키텍처를 실현하고 있는지, 그 독보적인 경쟁력을 심층 분석하는 새로운 블로그 시리즈에 오신 것을 환영합니다.
NVIDIA의 멀티테넌트 생성형 AI 인프라 청사진이 공개된 지금, 클라우드 제공업체(CSP)들의 핵심 과제는 이 비전을 실제 환경에 어떻게 구현하느냐 하는 것입니다. Zadara는 바로 이 여정을 함께할 가장 이상적인 파트너입니다. 본 시리즈를 통해 GPU 네트워킹부터 컨트롤 플레인 격리에 이르기까지, 레퍼런스 아키텍처의 핵심 요소를 살펴보고 Zadara가 이를 어떻게 현실로 바꾸고 있는지 보여드리겠습니다.
먼저 큰 그림부터 살펴보겠습니다. NVIDIA 레퍼런스 디자인의 핵심 요구사항은 무엇이며, Zadara는 왜 처음부터 이를 충족하도록 설계되었을까요?
NVIDIA 레퍼런스 아키텍처의 요구사항 이해
NVIDIA의 소프트웨어 레퍼런스 아키텍처는 클라우드 서비스 제공업체(CSP)가 확장 가능하고 안전하며 고성능인 AI 인프라를 구축할 수 있도록 설계된 포괄적인 프레임워크입니다. 이 아키텍처의 핵심 지원 요소는 다음과 같습니다.
-
진정한 멀티테넌시(True Multi-Tenancy): 컴퓨팅, 스토리지, 네트워킹, 오케스트레이션에 이르는 전체 스택(Full-stack)에서 고객 간의 완벽한 격리를 보장합니다.
-
AI 중심 인프라: 단순한 GPU 학습을 넘어 추론(Inference), 데이터 처리, 데이터베이스 및 오케스트레이션 계층을 포함한 AI 워크로드 전반에 최적화되어 있습니다.
-
동적 리소스 할당: 테넌트 및 워크로드별로 리소스(GPU, CPU, 스토리지, 네트워킹)를 유연하게 프로비저닝하고 확장할 수 있는 역량을 제공합니다.
-
테넌트 제어형 쿠버네티스 환경: 각 고객이 자체 쿠버네티스 컨트롤 플레인(Control Plane) 내에서 운영되도록 하여 유연성과 제어권을 극대화합니다.
-
엣지(Edge) 및 코어(Core) 배포 지원: 사용자 근처의 저지연(Low-latency) 배포부터 중앙 집중식 클라우드 운영까지 모두 지원합니다.
또한, AI 모델이 점차 복잡해짐에 따라 추론 자체가 더욱 높은 컴퓨팅 성능을 요구하고 있습니다. 특히 의사 결정 트리, 계획 수립, 코드 생성과 같은 ‘리즈닝(Reasoning, 추론/사고)’ 워크로드의 경우 더욱 그렇습니다. 이러한 리즈닝 모델은 대개 더 큰 메모리 점유율과 긴 GPU 실행 시간을 필요로 하므로, 학습뿐만 아니라 실시간 추론 단계에서도 동적인 고성능 리소스 할당이 필수적입니다.
이러한 요구사항은 고성능 네트워킹을 위한 Spectrum-X, 보안 네트워킹 및 오프로딩을 위한 BlueField-3 DPU, 그리고 AI 운영을 위한 NVIDIA AI Enterprise 소프트웨어와 같은 NVIDIA의 하드웨어 및 소프트웨어 구성 요소를 통해 통합 구현됩니다.
Zadara가 최적의 선택인 이유
Zadara는 설계 단계부터 멀티테넌트 클라우드를 지향하며 구축되었기에 NVIDIA의 권장 사항과 본질적으로 일치합니다. Zadara가 레퍼런스 디자인의 기대치를 충족하고, 이를 넘어선 가치를 제공하는 방식은 다음과 같습니다.
-
네이티브 멀티테넌시(Native Multi-Tenancy): Zadara는 컴퓨팅, 스토리지, 네트워킹 전반에 걸쳐 내장된 테넌트 격리 기능을 제공합니다. 각 테넌트는 정책 기반의 액세스 제어를 통해 인프라의 독립적이고 안전한 구획(Slice) 내에서 운영됩니다.
-
풀스택 워크로드 지원: 현대적인 AI 워크로드는 GPU에만 국한되지 않습니다. Zadara는 데이터베이스, 벡터 검색 엔진, 쿠버네티스 컨트롤 플레인(Control Plane) 구성 요소 등 AI/ML 환경을 구축하는 모든 핵심 워크로드를 지원합니다.
-
테넌트별 쿠버네티스 환경: Zadara는 테넌트별로 전용 쿠버네티스 컨트롤 플레인을 배포할 수 있습니다. 이는 컨트롤 플레인 분리라는 아키텍처 권장 사항을 충족하며 독보적인 유연성을 제공합니다.
-
탄력적인 리소스 할당(Elastic Resource Allocation): Zadara를 통해 컴퓨팅, 스토리지 및 GPU 리소스를 테넌트와 워크로드에 맞춰 동적으로 할당할 수 있습니다. 이를 통해 인프라 사용 효율을 극대화하고 부하 변화에 민첩하게 대응하는 확장이 가능합니다.
-
글로벌 엣지 인프라 거점(Global Edge Presence): 전 세계 25개국 이상에서 200여 지역 파트너가 운영하는 500개 이상의 Zadara 기반 엣지 로케이션을 통해 AI를 사용자에게 더욱 가까이 가져다줍니다. 이는 RAG(검색 증강 생성) 기반의 LLM부터 고성능 리즈닝(Reasoning) 작업에 이르기까지 폭넓은 워크로드에서 저지연 추론을 가능하게 합니다. 또한, 레퍼런스 디자인의 또 다른 핵심 원칙인 데이터 레지던시(Data Residency, 현지 보존) 요구사항을 완벽히 충족합니다.
다음 시리즈 예고
이어지는 포스팅에서는 특정 NVIDIA 기술들과 Zadara가 이를 어떻게 구체적으로 지원하는지 심층적으로 다룰 예정입니다.
-
Spectrum-X 및 GPU 네트워킹: AI를 위한 고성능 데이터 플레인(Data Plane) 구축
-
BlueField DPU: 보안 가속 네트워킹, 씬 하이퍼바이저(Thin Hypervisor), 컨트롤 플레인과 런타임 플레인의 분리 구현
-
쿠버네티스 컨트롤 플레인 격리: 대규모 환경에서의 테넌트별 K8s 오케스트레이션 지원 방식
멀티테넌트 AI 클라우드의 미래는 이미 도래했습니다. 그리고 그 중심에는 Zadara가 있습니다. 앞으로 이어질 핵심 기술 분석 시리즈에도 많은 관심 부탁드립니다.