Hipercomputador de IA

Dando asas à tecnologia da era da inferência com as TPUs Ironwood e as novas VMs baseadas em Axion.

Treinar, ajustar e disponibilize em um supercomputador de IA

O Hipercomputador de IA é o sistema de supercomputação integrado em todas as cargas de trabalho de IA no Google Cloud. Ele é composto por hardware, software e modelos de consumo projetados para simplificar a implantação de IA, melhorar a eficiência no nível do sistema e otimizar custos.

Guia: Nossos quatro principais casos de uso, arquiteturas de referência e tutoriais do Hipercomputador de IA

Notas de lançamento

Visão geral

Hardware otimizado por IA

Escolha entre opções de computação (incluindo aceleradores de IA), armazenamento e rede otimizadas para objetivos granulares no nível da carga de trabalho, seja para maior capacidade de processamento, menor latência, menor tempo para resultados ou menor TCO. Saiba mais sobre: TPUs do Cloud, GPUs do Cloud, além das novidades em armazenamento e rede.

Anúncio: Anthropic vai ampliar o uso de TPUs e serviços do Google Cloud

A Anthropic anunciou planos para acessar até 1 milhão de TPUs para treinar e veicular modelos do Claude, o que vale dezenas de bilhões de dólares. A Anthropic escolheu as TPUs devido ao preço-desempenho e à eficiência.

Leia o comunicado à imprensa

Software líder, frameworks abertos

Aproveite ao máximo seu hardware com o software líder do setor, integrado a frameworks, bibliotecas e compiladores abertos para tornar o desenvolvimento, a integração e o gerenciamento de IA mais eficientes.

Suporte para PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion e muito mais.
A integração profunda com o compilador XLA permite a interoperabilidade entre diferentes aceleradores, enquanto o Pathways no Cloud permite usar o mesmo ambiente de execução distribuído que alimenta a infraestrutura interna de treinamento e inferência em grande escala do Google.
Tudo isso pode ser implantado no ambiente de sua escolha, seja o Google Kubernetes Engine, o Cluster Director ou o Google Compute Engine.

Vídeo: confira o que a Moloco, a LG e a Shopify têm a dizer

Saiba como eles aproveitam as soluções de IA do Google Cloud para impulsionar a inovação e transformar os negócios

Assista sob demanda

Modelos de consumo flexíveis

As opções de consumo flexíveis permitem que os clientes escolham custos fixos com descontos por compromisso de uso ou modelos dinâmicos sob demanda para atender às necessidades dos negócios.O Dynamic Workload Scheduler e as VMs spot ajudam você a conseguir a capacidade necessária sem alocação excessiva.Além disso, as ferramentas de otimização de custos do Google Cloud automatizam a utilização de recursos para reduzir as tarefas manuais dos engenheiros.

Atualizações do Dynamic Workload Scheduler

Leia este blog para saber as novidades sobre o programador de cargas de trabalho dinâmicas e outras atualizações do Hipercomputador de IA.

Leia a postagem do blog

Como funciona

Nesta palestra principal do AI Infra Summit 2025, um líder do Google Cloud descreve o que vem a seguir para os fundamentos da IA e como usar o Hipercomputador de IA para inferência, descrevendo nossas práticas recomendadas de tecnologia mais recentes que você pode usar hoje.

Usos comuns

Disponibilize modelos em escala de maneira econômica

Maximizar a relação preço-desempenho e a confiabilidade para cargas de trabalho de inferência

A inferência está se tornando mais diversificada e complexa, evoluindo em três áreas principais:

Primeiro, a forma como interagimos com a IA está mudando. Agora as conversas têm um contexto muito mais longo e diversificado.
Em segundo lugar, o raciocínio sofisticado e a inferência em várias etapas estão tornando os modelos de Mixture-of-Experts (MoE) mais comuns. Isso está redefinindo como a memória e a computação são escalonadas da entrada inicial à saída final.
Por fim, fica claro que o valor real não é apenas sobre tokens brutos por dólar, mas sobre a utilidade da resposta. O modelo tem a experiência certa? Ela respondeu corretamente a uma pergunta comercial crítica? Por isso, acreditamos que os clientes precisam de melhores medições, com foco no custo total das operações do sistema, e não no preço dos processadores.

Tutoriais

Maximizar a relação preço-desempenho e a confiabilidade para cargas de trabalho de inferência

A inferência está se tornando mais diversificada e complexa, evoluindo em três áreas principais:

Primeiro, a forma como interagimos com a IA está mudando. Agora as conversas têm um contexto muito mais longo e diversificado.
Em segundo lugar, o raciocínio sofisticado e a inferência em várias etapas estão tornando os modelos de Mixture-of-Experts (MoE) mais comuns. Isso está redefinindo como a memória e a computação são escalonadas da entrada inicial à saída final.
Por fim, fica claro que o valor real não é apenas sobre tokens brutos por dólar, mas sobre a utilidade da resposta. O modelo tem a experiência certa? Ela respondeu corretamente a uma pergunta comercial crítica? Por isso, acreditamos que os clientes precisam de melhores medições, com foco no custo total das operações do sistema, e não no preço dos processadores.

Outros recursos

Conheça os recursos de inferência de IA

O que é inferência de IA? Nosso guia completo sobre tipos, comparações e casos de uso
Execute as receitas de inferência de práticas recomendadas com o Início rápido de inferência do GKE
Faça um curso sobre inferência de IA no Cloud Run
Assista este vídeo sobre o segredo para uma inferência de IA econômica
Descubra como acelerar as cargas de trabalho de inferência de IA

Exemplos de clientes

IA transforma fãs de esportes em designers de uniformes

A PUMA fez uma parceria com o Google Cloud para usar a infraestrutura de IA integrada (Hipercomputador de IA), o que permitiu que a empresa usasse o Gemini para comandos de usuários junto com o Dynamic Workload Scheduler para escalonar dinamicamente a inferência em GPUs, reduzindo drasticamente os custos e o tempo de geração.

Impacto:

Eles reduziram o tempo de geração do uniforme de IA de 2 a 5 minutos para apenas 30 segundos. Isso transformou a plataforma em uma experiência rápida e verdadeiramente interativa que manteve os usuários engajados.
Em apenas 10 dias, os fãs criaram 180 mil uniformes e deram 1,7 milhão de avaliações.
O projeto mostrou uma nova maneira de a PUMA se conectar com a comunidade. Ela foi além de um simples relacionamento entre marca e consumidor, transformando os fãs em cocriadores ativos e fornecendo à empresa insights diretos e em tempo real sobre os desejos criativos dos consumidores mais apaixonados.

New Way Now: com a IA Creator, os fãs da PUMA podem criar uniformes reais

Executar treinamento e pré-treinamento de IA em grande escala

Treinamento de IA avançado, escalonável e eficiente

As cargas de trabalho de treinamento precisam ser executadas como jobs altamente sincronizados em milhares de nós em clusters fortemente acoplados. Um único nó degradado pode interromper um job inteiro, atrasando o tempo de lançamento no mercado. Você vai precisar:

Garantir que o cluster seja configurado rapidamente e ajustado para a carga de trabalho em questão
Prever falhas e solucionar problemas rapidamente
A continuar com uma carga de trabalho, mesmo quando ocorrem falhas

Queremos que os clientes possam implantar e escalonar cargas de trabalho de treinamento com facilidade no Google Cloud.