O Hipercomputador de IA é o sistema de supercomputação integrado em todas as cargas de trabalho de IA no Google Cloud. Ele é composto por hardware, software e modelos de consumo projetados para simplificar a implantação de IA, melhorar a eficiência no nível do sistema e otimizar custos.
Visão geral
Escolha entre opções de computação (incluindo aceleradores de IA), armazenamento e rede otimizadas para objetivos granulares no nível da carga de trabalho, seja para maior capacidade de processamento, menor latência, menor tempo para resultados ou menor TCO. Saiba mais sobre: TPUs do Cloud, GPUs do Cloud, além das novidades em armazenamento e rede.
Aproveite ao máximo seu hardware com o software líder do setor, integrado a frameworks, bibliotecas e compiladores abertos para tornar o desenvolvimento, a integração e o gerenciamento de IA mais eficientes.
As opções de consumo flexíveis permitem que os clientes escolham custos fixos com descontos por compromisso de uso ou modelos dinâmicos sob demanda para atender às necessidades dos negócios.O Dynamic Workload Scheduler e as VMs spot ajudam você a conseguir a capacidade necessária sem alocação excessiva.Além disso, as ferramentas de otimização de custos do Google Cloud automatizam a utilização de recursos para reduzir as tarefas manuais dos engenheiros.
Usos comuns
A inferência está se tornando mais diversificada e complexa, evoluindo em três áreas principais:
A PUMA fez uma parceria com o Google Cloud para usar a infraestrutura de IA integrada (Hipercomputador de IA), o que permitiu que a empresa usasse o Gemini para comandos de usuários junto com o Dynamic Workload Scheduler para escalonar dinamicamente a inferência em GPUs, reduzindo drasticamente os custos e o tempo de geração.
Impacto:
A inferência está se tornando mais diversificada e complexa, evoluindo em três áreas principais:
A PUMA fez uma parceria com o Google Cloud para usar a infraestrutura de IA integrada (Hipercomputador de IA), o que permitiu que a empresa usasse o Gemini para comandos de usuários junto com o Dynamic Workload Scheduler para escalonar dinamicamente a inferência em GPUs, reduzindo drasticamente os custos e o tempo de geração.
Impacto:
As cargas de trabalho de treinamento precisam ser executadas como jobs altamente sincronizados em milhares de nós em clusters fortemente acoplados. Um único nó degradado pode interromper um job inteiro, atrasando o tempo de lançamento no mercado. Você vai precisar:
Queremos que os clientes possam implantar e escalonar cargas de trabalho de treinamento com facilidade no Google Cloud.
Para criar um cluster de IA, comece com um dos nossos tutoriais:
A Moloco contou com a pilha totalmente integrada do Hipercomputador de IA para escalonar automaticamente em hardware avançado, como TPUs e GPUs, o que liberou os engenheiros da Moloco. Além disso, a integração com a plataforma de dados líder do setor do Google criou um sistema coeso e completo para cargas de trabalho de IA.
Depois de lançar os primeiros modelos de aprendizado profundo, a Moloco teve um crescimento e uma lucratividade exponenciais, multiplicando por cinco o tamanho da empresa em 2,5 anos e alcançando

AssemblyAI
A AssemblyAI usa o Google Cloud para treinar modelos com rapidez e em grande escala

A LG AI Research reduziu drasticamente os custos e acelerou o desenvolvimento, ao mesmo tempo em que cumpria os rigorosos requisitos de segurança e residência de dados

A Anthropic anunciou planos para acessar até 1 milhão de TPUs para treinar e veicular modelos do Claude, o que vale dezenas de bilhões de dólares. Mas como eles são executados no Google Cloud? Assista a este vídeo para saber como a Anthropic está ampliando os limites computacionais da IA em escala com o GKE.
As cargas de trabalho de treinamento precisam ser executadas como jobs altamente sincronizados em milhares de nós em clusters fortemente acoplados. Um único nó degradado pode interromper um job inteiro, atrasando o tempo de lançamento no mercado. Você vai precisar:
Queremos que os clientes possam implantar e escalonar cargas de trabalho de treinamento com facilidade no Google Cloud.
Para criar um cluster de IA, comece com um dos nossos tutoriais:
A Moloco contou com a pilha totalmente integrada do Hipercomputador de IA para escalonar automaticamente em hardware avançado, como TPUs e GPUs, o que liberou os engenheiros da Moloco. Além disso, a integração com a plataforma de dados líder do setor do Google criou um sistema coeso e completo para cargas de trabalho de IA.
Depois de lançar os primeiros modelos de aprendizado profundo, a Moloco teve um crescimento e uma lucratividade exponenciais, multiplicando por cinco o tamanho da empresa em 2,5 anos e alcançando

AssemblyAI
A AssemblyAI usa o Google Cloud para treinar modelos com rapidez e em grande escala

A LG AI Research reduziu drasticamente os custos e acelerou o desenvolvimento, ao mesmo tempo em que cumpria os rigorosos requisitos de segurança e residência de dados

A Anthropic anunciou planos para acessar até 1 milhão de TPUs para treinar e veicular modelos do Claude, o que vale dezenas de bilhões de dólares. Mas como eles são executados no Google Cloud? Assista a este vídeo para saber como a Anthropic está ampliando os limites computacionais da IA em escala com o GKE.
O Google Cloud fornece imagens que contêm sistemas operacionais, frameworks, bibliotecas e drivers comuns. O Hipercomputador de IA otimiza essas imagens pré-configuradas para oferecer suporte às suas cargas de trabalho de IA.
"Com a ajuda do Google Cloud na incorporação da IA generativa, podemos criar um concierge de viagens personalizado em nosso chatbot. Queremos ajudar nossos clientes a ir muito além do simples planejamento de uma viagem, proporcionando uma experiência de viagem única”. Martin Brodbeck, CTO, Priceline
O Google Cloud fornece imagens que contêm sistemas operacionais, frameworks, bibliotecas e drivers comuns. O Hipercomputador de IA otimiza essas imagens pré-configuradas para oferecer suporte às suas cargas de trabalho de IA.
"Com a ajuda do Google Cloud na incorporação da IA generativa, podemos criar um concierge de viagens personalizado em nosso chatbot. Queremos ajudar nossos clientes a ir muito além do simples planejamento de uma viagem, proporcionando uma experiência de viagem única”. Martin Brodbeck, CTO, Priceline
Perguntas frequentes
Embora os serviços individuais ofereçam recursos específicos, o Hipercomputador de IA fornece um sistema integrado em que hardware, software e modelos de consumo são projetados para funcionar de maneira ideal juntos. Essa integração oferece eficiências no nível do sistema em desempenho, custo e tempo de lançamento no mercado que são mais difíceis de alcançar ao reunir serviços diferentes. Ele simplifica a complexidade e oferece uma abordagem holística para a infraestrutura de IA.
Sim, o Hipercomputador de IA foi projetado para ser flexível. Tecnologias como o Cross-Cloud Interconnect oferecem conectividade de alta largura de banda a data centers no local e outras nuvens, facilitando estratégias de IA híbridas e multicloud. Operamos com padrões abertos e integramos softwares de terceiros conhecidos para que você possa criar soluções que abrangem vários ambientes e mudar de serviço quando quiser.
A segurança é um aspecto essencial do Hipercomputador de IA. Ele se beneficia do modelo de segurança em várias camadas do Google Cloud. Os recursos específicos incluem microcontroladores de segurança Titan (garantindo que os sistemas sejam inicializados a partir de um estado confiável), firewall RDMA (para rede de confiança zero entre TPUs/GPUs durante o treinamento) e integração com soluções como Model Armor para segurança de IA. Eles são complementados por políticas e princípios robustos de segurança de infraestrutura, como o framework de IA segura.
Não. O Hipercomputador de IA pode ser usado para cargas de trabalho de qualquer tamanho. Cargas de trabalho menores ainda aproveitam todos os benefícios de um sistema integrado, como eficiência e implantação simplificada. O Hipercomputador de IA também oferece suporte aos clientes à medida que os negócios deles crescem, desde pequenos experimentos e provas de conceito até implantações de produção em grande escala.
Para a maioria dos clientes, uma plataforma de IA gerenciada como a Vertex AI é a maneira mais fácil de começar a usar a IA, porque ela tem todas as ferramentas, modelos e modelos integrados. Além disso, a Vertex AI é alimentada pelo Hipercomputador de IA nos bastidores de uma forma otimizada para você. A Vertex AI é a maneira mais fácil de começar porque é a experiência mais simples. Se você preferir configurar e otimizar cada componente da sua infraestrutura, poderá acessar os componentes do Hipercomputador de IA como infraestrutura e montá-los de acordo com suas necessidades.
Sim, estamos criando uma biblioteca de receitas no GitHub. Você também pode usar o Cluster Toolkit para projetos de cluster pré-criados.
Hardware otimizado por IA
Armazenamento
Rede
Computação: acesse as TPUs do Google Cloud (Trillium), GPUs da NVIDIA (Blackwell) e CPUs (Axion). Isso permite a otimização com base nas necessidades específicas da carga de trabalho para capacidade de processamento, latência ou TCO.
Software e frameworks abertos líderes
Modelos de consumo: