O FutureLab acaba de receber uma nova máquina de Data Center que irá impulsionar o desenvolvimento de projetos voltados ao Aprendizado Federado. A NVIDIA DGX H200 é uma plataforma de alta performance projetada para aplicações de inteligência artificial em larga escala. O equipamento foi adquirido com recursos da Linha VI – Conectividade Veicular do programa Mover (Mobilidade Verde e Inovação), coordenado pela Fundep, que conta com participação técnica de pesquisadores do Departamento de Ciência da Computação da UFMG (DCC).
A chegada da nova infraestrutura marca um avanço significativo para as pesquisas conduzidas pelo FutureLab. “A DGX H200 ultrapassa barreiras importantes e permite treinar modelos muito maiores, realizar deploy em produção com alto desempenho, processar datasets massivos e operar em uma infraestrutura integrada e escalável”, explica Marcelo Queiroz, do DCC.
Segundo ele, na prática, a máquina foi projetada para treinamento intensivo de IA, incluindo modelos de deep learning de grande porte (como transformers, LLMs e redes profundas), além de possibilitar inferência e deploy em produção com alta demanda de forma plug-and-play, reduzindo a complexidade de configuração de clusters. Até então, o laboratório utilizava uma RTX A6000, uma GPU robusta, porém limitada em memória, largura de banda e escalabilidade.
Benefícios práticos para o FutureLab
O investimento representa em muitos benefícios para o desenvolvimento de pesquisa e inovação executados pelo FutureLab. Conheça alguns desses benefícios:
- Modelos de grande porte (transformers, LLMs, redes profundas com bilhões/trilhões de parâmetros) tornam-se viáveis ou significativamente mais rápidos de treinar.
- Redução da complexidade de infraestrutura, em vez de montar diversas GPUs avulsas + rede + interconexão, o DGX chega pronto.
- Eficiência em treinamentos e inferências em grande escala, graças ao poder das GPUs e à altíssima largura de banda entre elas.
- Maior produtividade e ciclos de desenvolvimento mais rápidos: treinamentos longos passam a durar horas ou dias, em vez de semanas.
- Base sólida para pesquisa e produção de IA em escala, ideal para pipelines robustos de ML, MLOps, deploy contínuo e experimentação acelerada.
Especificações da DGX H200
- A DGX H200 reúne componentes voltados à máxima performance em IA e HPC. Entre suas principais características, estão:
- 8 GPUs NVIDIA H200 integradas, totalizando 1.128 GB de memória HBM3e.
- Conexões NVLink, que oferecem 900 GB/s de largura de banda bidirecional entre GPUs, garantindo comunicação altamente eficiente.
- 10 interfaces de rede de 400 Gb/s (NVIDIA ConnectX-7), chegando a 1 TB/s bidirecional, ideais para workloads distribuídos, operações com alto volume de I/O e deploy de modelos em escala.
Mais detalhes técnicos:
- Memória GPU (VRAM): 141 GB HBM3e por GPU – 1.128 GB no total
- Largura de banda da memória: ~4.800 GB/s por GPU (≈ 4,8 TB/s)
- Poder de processamento: Otimizada para IA, HPC e modelos de grande porte
- Escalabilidade: Arquitetura integrada, com GPUs, NVLink, rede e software pré-configurados