A NVIDIA B200 chegou — bare metal, extremamente rápida e agora disponível na Novita AI.
Experimente mais de 30.000 tokens por segundo no DeepSeek-R1 com a NVIDIA B200 — alimentada pela arquitetura Blackwell de última geração e projetada para LLMs, IA generativa e inferência em escala empresarial. Sem hardware? Sem problema. A Novita AI oferece acesso sob demanda por uma fração do custo.
O que é B200?
A NVIDIA B200 é uma GPU de próxima geração construída na arquitetura Blackwell, oferecendo desempenho de IA revolucionário com até 72 petaFLOPS para treinamento e 144 petaFLOPS para inferência, tornando-a ideal para grandes modelos de linguagem e cargas de trabalho de IA generativa.

Principais Métricas de Desempenho
| Componente | Detalhes |
| GPU | 8x GPUs NVIDIA Blackwell |
| Memória GPU | 1.440 GB total, 64 TB/s de largura de banda HBM3e |
| Desempenho | 72 petaFLOPS FP8 para treinamento e 144 petaFLOPS FP4 para inferência |
| NVIDIA NVSwitch | 2x |
| Largura de banda NVIDIA NVLink | 14,4 TB/s de largura de banda agregada |
| Consumo de energia do sistema | ~14,3 kW máx. |
| CPU | 2x Intel Xeon Platinum 8570, 112 núcleos no total, 2,1 GHz (Base), 4 GHz (Max Boost) |
| Memória do sistema | 2 TB, configurável para 4 TB |
| Rede | 4 portas OSFP (8 portas NVIDIA ConnectX-7 VPI monoportas), até 400 Gb/s Infiniband/Ethernet; 2 portas QSFP112 duais BlueField-3 DPU, até 400 Gb/s Infiniband/Ethernet |
| Rede de gerenciamento | NIC onboard de 10 Gb/s com RJ45; NIC Ethernet dual-port de 100 Gb/s; BMC com RJ45 |
| Armazenamento | SO: 2x 1,9 TB NVMe M.2, Interno: 8x 3,84 TB NVMe U.2 |
| Software | NVIDIA AI Enterprise, NVIDIA Mission Control, NVIDIA Runai Technology, NVIDIA DGX OS / Ubuntu |
| Unidades de Rack (RU) | 10 RU |
| Dimensões do sistema | Altura: 17,5 pol (444 mm), Largura: 19,0 pol (482,2 mm), Comprimento: 35,3 pol (897,1 mm) |
| Temperatura de operação | 5–30°C (41–86°F) |
| Suporte empresarial | Suporte padrão de 3 anos para hardware/software; acesso ao portal de suporte 24/7; atendimento presencial em horário comercial |
Trata-se essencialmente de um supercomputador de IA que pode:
- Treinar modelos avançados de IA (como ChatGPT, Claude)
- Atender milhares de solicitações de inferência de IA simultaneamente
- Processar conjuntos de dados massivos para pesquisa ou inteligência de negócios
- Alimentar aplicações de IA para organizações inteiras
Eficiência de Custo da B200


Este preço não é para uma única GPU. Geralmente cobre um sistema DGX completo com:
- 8x GPUs Blackwell B200
- CPUs Dual Xeon
- Interconexões NVLink e NVSwitch de alta velocidade
- 1,44 TB de memória GPU HBM3e
- 2 TB+ de RAM do sistema
- Rede, SSDs e pilha de software de nível empresarial (NVIDIA AI Enterprise, Run:ai, etc.)
Aplicação da B200
1. Treinamento e Inferência de IA
A B200 se destaca tanto no treinamento quanto na inferência de modelos de IA em larga escala, especialmente grandes modelos de linguagem (LLMs) e aplicações de IA generativa.
- Treinamento: Com seu Transformer Engine de segunda geração e suporte para precisão FP4, a B200 acelera o processo de treinamento de modelos massivos, reduzindo o tempo e os recursos computacionais necessários.
- Inferência: A B200 oferece desempenho de inferência excepcional, alcançando mais de 1.000 tokens por segundo por usuário em benchmarks com modelos como Meta Llama 4 Maverick.
2. Gráficos e Visualização
Embora projetada principalmente para cargas de trabalho de IA, a B200 também suporta tarefas avançadas de gráficos e visualização:
- Ray Tracing: Equipada com RT Cores de 4ª geração, a B200 pode realizar ray tracing em tempo real, possibilitando renderização de alta fidelidade para cenas complexas.
- Tecnologia Shader: A arquitetura da GPU inclui aprimoramentos como Shader Execution Reordering (SER) 2.0, otimizando a execução de programas shader complexos e kernels de computação.
3. Cargas de Trabalho de Precisão
A B200 é habilidosa em lidar com tarefas intensivas em precisão em vários domínios científicos e industriais:
- A GPU NVIDIA B200, baseada na arquitetura Blackwell, suporta operações de ponto flutuante (FP) através de seus Tensor Cores de quinta geração. Esses Tensor Cores são projetados para lidar com uma variedade de precisões FP, incluindo FP4, FP6, FP8, FP16 e TF32, permitindo aceleração eficiente de cargas de trabalho de IA.
B200+Deepseek R1=Recorde Mundial
| Configuração de GPU | Taxa de Transferência Total | Observações |
|---|---|---|
| 8x NVIDIA B200 (DGX B200) | Mais de 30.000 tokens/s | Alcançado usando TensorRT-LLM com precisão FP4 |
| 8x NVIDIA H200 (HGX H200) | Até 3.872 tokens/s | Utilizando microsserviço NVIDIA NIM |
| 8x NVIDIA H100 (Quantizado 4 bits) | Aproximadamente 2.500 tokens/s | Implantado com vLLM 0.7.3 |
| 4x NVIDIA H100 | 25 tokens/s | Teste real no Lambda Cloud |
| NVIDIA RTX 4090 única (24 GB) | 3–33 tokens/s | O desempenho varia com base na quantização e configuração |
Em resumo, a GPU NVIDIA B200 se destaca como a melhor opção para inferência do DeepSeek-R1, oferecendo uma taxa de transferência incomparável que permite a implantação eficiente de grandes modelos de linguagem em ambientes empresariais.
Como Executar a B200 a um Preço Muito Econômico?
A Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer uma nuvem de GPU acessível e confiável para construir e escalar.
Passo 1: Faça Login e Acesse o GPU Bare Metal
Faça login na sua conta e clique no botão GPU Bare Metal.

Experimente a Novita AI Agora!
Passo 2: Escolha Sua GPU

Selecione o Dispositivo
- Nome do Dispositivo: Escolha H100 SXM ou B200 SXM.
- Região: Estados Unidos.
- Configuração (para H100 SXM):
- 8 GPUs
- 2048 GB de Memória
- 104 vCPU/Nó
- 15,36 TB de Armazenamento
- a $1,70/hora.
- Configuração (para B200 SXM):
- 8 GPUs
- 2304 GB de Memória
- 144 vCPU/Nó
- 30,8 TB de Armazenamento
- a $4,77/hora.
Defina a Quantidade e Duração do Aluguel
-
Ajuste o campo Quantidade de GPU conforme sua necessidade. Por exemplo, selecione 8 GPUs.
-
Escolha a duração do aluguel. Por exemplo, defina como 1 mês.
A GPU NVIDIA B200, construída na arquitetura Blackwell, é um supercomputador de IA de ponta projetado para desempenho extremo em treinamento, inferência, gráficos e cargas de trabalho de precisão. Com taxa de transferência recorde para DeepSeek-R1 e um Transformer Engine otimizado FP4/FP8, ela oferece eficiência incomparável para IA generativa em larga escala. Embora o custo inicial do sistema seja alto, plataformas como a Novita AI oferecem acesso flexível e econômico ao hardware B200 na nuvem — tornando a IA de ponta acessível sem a sobrecarga de infraestrutura.
[Agende uma Demonstração Agora
Link Direto para Bare Metal Novita AI Agora!](https://meet.brevo.com/novita-ai/contact-sales)
Perguntas Frequentes
O que é a NVIDIA B200?
A B200 é a GPU mais recente da NVIDIA baseada na arquitetura Blackwell, oferecendo 72 petaFLOPS (FP8) para treinamento e 144 petaFLOPS (FP4) para inferência — ideal para LLMs, IA generativa e computação científica.
Quais modelos rodam melhor na B200?
A B200 se destaca com modelos grandes como DeepSeek-R1, Llama 4 Maverick e outros LLMs de bilhões de parâmetros, graças à sua alta taxa de transferência e memória.
Qual é o desempenho de inferência do DeepSeek-R1 na B200?
Com 8 GPUs B200, o DeepSeek-R1 atinge mais de 30.000 tokens por segundo, superando amplamente as configurações H100 e H200.
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construir e escalar.
