O foco doGoogle Cloud é fornecer infraestrutura de inteligência artificial (IA) de nível mundial para potencializar suas cargas de trabalho aceleradas por GPU mais exigentes em uma ampla variedade de segmentos. É possível usar GPUs no Google Cloud para executar aplicativos de IA, aprendizado de máquina (ML), científicos, analíticos, corporativos, de engenharia e de consumo.
Com nossa parceria com a NVIDIA, Google Cloud oferece as GPUs mais recentes e otimiza a pilha de software com uma ampla variedade de opções de armazenamento e rede. Para acessar uma lista completa de GPUs disponíveis, consulte Plataformas de GPU.
Confira nas seções a seguir os benefícios das GPUs no Google Cloud.
VMs aceleradas por GPU
No Google Cloud, você pode acessar e provisionar GPUs da maneira que melhor atende às suas necessidades. Uma família de máquinas especializadas e otimizadas para aceleradores está disponível, com GPUs pré-conectadas e recursos de rede ideais para maximizar o desempenho. Eles estão disponíveis nas séries de máquinas A3, A2 e G2.
Várias opções de provisionamento
Você pode provisionar clusters usando a família de máquinas otimizadas para aceleradores com qualquer um dos seguintes produtos de código aberto ou Google Cloud .
Vertex AI
A Vertex AI é uma plataforma de machine learning (ML) totalmente gerenciada que você pode usar para treinar e implantar modelos de ML e aplicativos de IA. Nos aplicativos da Vertex AI, você pode usar VMs aceleradas por GPU para melhorar o desempenho das seguintes formas:
- Usar VMs ativadas para GPU em pools de workers de treinamento personalizado do GKE.
- Usar modelos de LLM de código aberto do Model Garden Vertex AI.
- Reduzir a latência de previsão.
- Melhorar o desempenho do código do notebook do Vertex AI Workbench.
- Aumentar o desempenho de um ambiente de execução do Colab Enterprise.
Cluster do Hypercompute
O cluster do Hypercompute é um bloco de construção de infraestrutura que permite criar um cluster de VMs com aceleração de GPU que são implantadas e mantidas como uma unidade homogênea. Essa opção é ideal para provisionar uma infraestrutura com alocação densa e otimizada para desempenho que tenha integrações com o Google Kubernetes Engine (GKE) e os programadores Slurm. O Hypercompute Cluster oferece infraestrutura projetada especificamente para executar cargas de trabalho de IA, ML e HPC. Para mais informações, consulte Cluster de Hypercompute.
Para começar a usar o Hypercompute Cluster, consulte Escolher uma estratégia de implantação.
Compute Engine
Você também pode criar e gerenciar VMs individuais ou pequenos clusters de VMs com GPUs anexadas no Compute Engine. Esse método é usado principalmente para executar cargas de trabalho com uso intensivo de gráficos, cargas de trabalho de simulação ou treinamento de modelo de ML em pequena escala.
Opção de implantação |
Guias de implantação |
Criar uma VM para servir e cargas de trabalho de nó único |
|
Criar grupos gerenciados de instâncias (MIGs) |
|
Criar VMs em massa |
|
Criar uma única VM |
Criar uma única VM de GPU (VMs padrão ou do Spot) |
Criar estações de trabalho virtuais |
Cloud Run
É possível configurar GPUs para seu serviço do Cloud Run. As GPUs são ideais para executar cargas de trabalho de inferência de IA usando modelos de linguagem grandes no Cloud Run.
No Cloud Run, consulte estes recursos para executar cargas de trabalho de IA em GPUs:
- Configurar GPUs para um serviço do Cloud Run
- Carregar modelos de ML grandes no Cloud Run com GPUs
- Tutorial: executar inferência de LLM em GPUs do Cloud Run com o Ollama