Zadara가 NVIDIA 클라우드 공급자(NCP)를 지원하여 ‘멀티 테넌트 추론 클라우드를 위한 NVIDIA 소프트웨어 레퍼런스 아키텍처’를 어떻게 실제 환경에 구현하는지 살펴보는 블로그 시리즈, 그 두 번째 시간에 오신 것을 환영합니다.
이번 포스트에서는 NVIDIA의 고성능 이더넷 네트워킹 플랫폼인 Spectrum-X에 초점을 맞추어, Zadara가 이를 활용해 확장 가능한 멀티 테넌트 AI 인프라의 요구사항을 충족하는 보안 중심의 테넌트별 GPU 네트워킹을 어떻게 제공하는지 자세히 알아보겠습니다.
AI 클라우드에서 고성능 네트워킹의 역할
생성형 AI와 추론 기반 애플리케이션을 중심으로 하는 현대의 AI 워크로드는 고도의 분산 처리가 필요하며 통신 집약적인 특성을 가집니다. 여러 GPU 노드에 걸쳐 대규모 언어 모델(LLM)을 학습시키든, 엄격한 지연 시간(Latency) 제한 아래 실시간 추론을 수행하든, 이제 네트워킹 성능은 컴퓨팅 및 메모리 성능만큼이나 중요해졌습니다.
NVIDIA Spectrum-X는 현대적인 클라우드 환경에서 NVIDIA GPU의 성능과 효율성을 극대화하기 위해 설계된 엔드 투 엔드 이더넷 네트워킹 플랫폼입니다.
주요 구성 요소는 다음과 같습니다.
- Spectrum-4 이더넷 스위치: 컴팩트한 2U 폼 팩터에서 최대 64개의 800GbE 포트를 제공하며, 업계 최고 수준인 초당 51.2테라비트(Tb/s)의 총 처리량을 실현합니다. 스마트 리프(Smart-leaf), 스파인(Spine), 슈퍼 스파인(Super-spine) 계층 전체에 걸쳐 사용되도록 설계된 이 스위치는 확장 가능한 고성능 AI 네트워크 패브릭 구축의 근간이 됩니다.
- BlueField-3 SuperNIC: 이 고급 네트워크 가속기는 GPU 서버 간에 최대 400GbE의 RoCE 연결을 제공하여 NVIDIA GPUDirect® RoCE가 AI 워크로드의 효율성을 극대화할 수 있도록 지원합니다. DDP(Direct Data Placement), 순차 패킷 전송(In-order packet delivery), 향상된 텔레메트리 기능을 통해 분산 AI 애플리케이션 전반에서 일관된 저지연 및 고대역폭 성능을 보장합니다.
Spectrum-X는 RoCE(RDMA over Converged Ethernet)를 활용해 대역폭 효율을 높이고 워크로드 격리를 강화합니다. 특히 혼잡 회피를 위한 RoCE 적응형 라우팅(Adaptive Routing), 텔레메트리 기반의 혼잡 제어(Congestion Control), 테넌트 간 일관된 동작을 유지하는 성능 격리(Performance Isolation) 기능을 포함합니다. 적절한 설정이 뒷받침될 때, Spectrum-X는 비로소 확장 가능한 고성능 AI 네트워킹을 완성합니다.
AI 멀티 테넌시에서 자동화된 네트워크 관리의 중요성
멀티 테넌트 AI 클라우드에서는 테넌트 간의 네트워크 격리와 일관된 성능 유지가 핵심입니다. Spectrum-X는 안전하고 효율적인 멀티 테넌트 운영을 지원하는 기반 기능을 제공합니다.
- 트래픽 격리: 테넌트 간 트래픽을 엄격히 분리하여 이른바 ‘노이즈 이웃(Noisy Neighbor)’ 문제를 방지하고 멀티 테넌트 AI 환경의 보안을 극대화합니다.
- 서비스 품질(QoS) 및 공정 스케줄링: 각 테넌트가 일관된 네트워크 성능을 할당받도록 보장하며, 이는 서비스 수준 협약(SLA) 준수에 필수적입니다.
그러나 이러한 기능을 실제로 구현하기 위해서는 “NVD HGX Systems 기반 AI 클라우드 배포를 위한 Spectrum-X Compute Network Fabric 최적화 가이드”에 설명된 바와 같이 정교한 스위치 설정이 필수적입니다. 특히 멀티 테넌트 클라우드 환경에서는 GPU 자원이 테넌트 간에 할당되고 재할당됨에 따라 이러한 설정이 실시간으로 유연하게 변경되어야 합니다. 스위치 설정이 변화하는 테넌트 토폴로지에 맞춰 동적으로 자동 조정되지 않는다면, 자원 프로비저닝과 확장은 수작업에 의존하게 되고 오류 가능성이 높아지며, 결과적으로 현대 클라우드가 제공해야 할 온디맨드 경험과는 거리가 멀어지게 됩니다.
Zadara의 강점: Spectrum-X 지원을 위한 역량 확장
Zadara의 플랫폼 아키텍처는 오랫동안 안전한 멀티 테넌트 클라우드 운영을 지원해 왔으며, 이제 Spectrum-X의 고성능 및 트래픽 격리 기능을 온전히 활용할 수 있도록 그 역량을 확장했습니다. Zadara는 컴퓨팅 자원의 배치 상태에 따라 GPU 간 네트워킹의 프로비저닝과 오케스트레이션을 자동화함으로써, NCP(NVIDIA Cloud Provider)가 현대적인 멀티 테넌트 AI 클라우드를 구축하는 과정을 대폭 단순화합니다.
1. 네트워크 인지형 멀티 테넌트 설계:
Zadara 플랫폼은 소프트웨어 정의 네트워킹(SDN)과 테넌트 격리 기능을 통합적으로 제공합니다. VRF(Virtual Routing and Forwarding)를 자동으로 할당하고 스위치 포트를 해당 VRF에 매핑함으로써, Spectrum-X의 세밀한 제어 기능과 완벽하게 호환됩니다. 이를 통해 GPU 네트워킹 패브릭 전반에서 안전하고 자동화된 멀티 테넌트 운영을 실현합니다.
2. GPU-Net: 정책 기반의 투명한 GPU 네트워킹:
Zadara는 Spectrum-4와 호환되며 NVIDIA의 레퍼런스 아키텍처를 준수하는 백엔드 스위칭 패브릭상에서 GPU-Net의 배포 및 수명 주기 관리를 자동화합니다. GPU-Net은 Zadara의 VPC(Virtual Private Cloud) 모델을 확장하여 가상 머신(VM) 간에 전용 동서(East-West) GPU 통신 경로를 제공합니다. 이 경로는 사용자의 별도 설정 없이도 자동 프로비저닝되며, 동일한 VPC 내의 VM들만 GPU 트래픽을 교환할 수 있도록 제한하여 높은 처리량, 저지연, 그리고 강력한 보안성을 동시에 확보합니다. 또한, API를 통해 스위칭 패브릭을 동적으로 프로그래밍하므로 테넌트 토폴로지의 변화를 실시간으로 반영합니다.
3. 규모에 상관없는 일관된 저지연 성능:
Zadara의 오케스트레이션은 GPU-Net 구성과 VM 배치를 Spectrum-X의 레일 그룹(Rail-group) 토폴로지에 지능적으로 정렬합니다. 이는 결정론적 성능(Deterministic Performance)을 위한 NVIDIA의 권장 가이드를 엄격히 따른 것으로, 테넌트 규모의 확장이나 축소와 관계없이 일관된 저지연 통신을 보장하고 네트워크 혼잡을 방지합니다.
4. 유연한 GPU 인프라(Flexible GPU Infrastructure):
Zadara는 NCP(NVIDIA Cloud Provider)의 추가 작업 없이도 여러 테넌트에 GPU 자원을 동적으로 할당할 수 있도록 지원합니다. NCP는 클라우드 내 GPU 노드를 자유롭게 추가하거나 제거하기만 하면 되며, 그 이후의 자원 할당, 노드 전용화(Dedication), 자원 할당 정책 강제화(Quota Enforcement) 등은 Zadara의 컨트롤 플레인이 자동으로 처리합니다. 무엇보다 이번 블로그의 주제와 관련하여 가장 중요한 점은, 이러한 유연한 환경에서도 GPU 트래픽이 최적의 자원 활용률을 유지하며 네트워크를 통해 효율적으로 라우팅된다는 것입니다.
결론
고성능 네트워킹은 확장성, 보안성, 그리고 예측 가능성을 갖춘 멀티테넌트 AI 클라우드 인프라를 구성하는 데 있어 핵심적인 요소입니다. NVIDIA의 Spectrum-X는 GPU 간 데이터 전송을 최적화하는 표준 아키텍처를 제시하지만, 멀티테넌트 환경에서는 이를 효과적으로 운영하기 위한 오케스트레이션과 관리 측면의 부담이 함께 발생합니다.
Zadara는 이러한 복잡성을 해결하기 위해, 실제 멀티테넌트 클라우드 환경에서 NCP(NVIDIA Cloud Platform)를 안정적으로 운영할 수 있도록 소프트웨어 플랫폼과 오케스트레이션 레이어를 제공합니다. 이를 통해 고성능 네트워크 인프라를 보다 효율적이고 자동화된 방식으로 활용할 수 있습니다.
향후 포스트에서는 Zadara가 BlueField-3를 비롯한 NVIDIA 기술을 어떻게 확장 지원하는지, 그리고 AI 클라우드 인프라에서 중요한 가상화, 격리, 보안 측면의 고려사항에 대해 보다 구체적으로 살펴보겠습니다.