Esta página foi traduzida pela API Cloud Translation.

Otimize cargas de trabalho de IA e ML com o Parallelstore

Last reviewed 2025-01-20 UTC

Este documento apresenta uma arquitetura de referência que mostra como usar o Parallelstore para otimizar o desempenho de cargas de trabalho de inteligência artificial (IA) ou machine learning (ML). O Parallelstore é um serviço de armazenamento de sistema de arquivos paralelo que ajuda a reduzir custos, melhorar a utilização de recursos e acelerar o tempo de treinamento para cargas de trabalho de IA e ML.

O público-alvo deste documento inclui arquitetos e profissionais técnicos que projetam, provisionam e gerenciam o armazenamento para as cargas de trabalho de IA e ML no Google Cloud. No documento, pressupomos que você tenha conhecimento do ciclo de vida, dos processos e dos recursos de ML.

O Parallelstore é um sistema de arquivos scratch de alto desempenho e totalmente gerenciado em Google Cloud baseado na arquitetura de armazenamento distribuído assíncrono de objetos (DAOS, na sigla em inglês). O Parallelstore é ideal para cargas de trabalho de IA e ML que usam até 100 TiB de capacidade de armazenamento e que precisam fornecer acesso de baixa latência (submilissegundos) com alta capacidade de processamento e operações de entrada/saída por segundo (IOPS).

O Parallelstore oferece várias vantagens para cargas de trabalho de IA e ML, como estas:

Menor custo total de propriedade (TCO) para treinamento: o Parallelstore acelera o tempo de treinamento ao fornecer dados de maneira eficiente para nós de computação. Essa funcionalidade ajuda a reduzir o custo total de propriedade do treinamento de modelo de IA e ML.
TCO mais baixo para veiculação: os recursos de alto desempenho do Parallelstore permitem o carregamento mais rápido do modelo e a veiculação otimizada de inferência. Esses recursos ajudam a reduzir os custos de computação e melhorar a utilização de recursos.
Uso eficiente de recursos: o Parallelstore permite combinar treinamento, checkpointing e veiculação em uma única instância. Essa utilização de recursos ajuda a maximizar o uso eficiente da capacidade de leitura e gravação em um único sistema de armazenamento de alto desempenho.

Arquitetura

O diagrama a seguir mostra um exemplo de arquitetura para usar o Parallelstore para otimizar o desempenho de uma carga de trabalho de treinamento de modelo e de exibição:

Uma arquitetura usa o Parallelstore para otimizar o desempenho da carga de trabalho treinamento de modelo e de veiculação.

Os workloads mostrados na arquitetura anterior são descritos em detalhes em seções posteriores. A arquitetura inclui os seguintes componentes:

Componente	Finalidade
Cluster do Google Kubernetes Engine (GKE)	O GKE gerencia os hosts de computação em que os processos de treinamento e exibição de modelos de IA e ML são executados. O GKE gerencia a infraestrutura subjacente dos clusters, incluindo o plano de controle, os nós e todos os componentes do sistema.
Programador do Kubernetes	O plano de controle do GKE programa cargas de trabalho e gerencia o ciclo de vida, o escalonamento e os upgrades delas. O agente do nó do Kubernetes (`kubelet`), que não aparece no diagrama, se comunica com o plano de controle. O `kubelet` é responsável por iniciar e executar contêineres programados nos nós do GKE. É possível implantar GPUs para cargas de trabalho em lote e de IA com o Dynamic Workload Scheduler, que permite solicitar GPUs sem um grande compromisso. Para mais informações sobre o programador, consulte Orquestração de IA/ML no GKE.
Rede de nuvem privada virtual (VPC)	Todos os recursos Google Cloud na arquitetura usam uma única rede VPC. Dependendo dos seus requisitos, é possível criar uma arquitetura que use várias redes. Para mais informações sobre como configurar uma rede VPC para Parallelstore, consulte Configurar uma rede VPC.
Cloud Load Balancing	Nessa arquitetura, o Cloud Load Balancing distribui de maneira eficiente as solicitações de inferência recebidas dos usuários do aplicativo para os contêineres de serviço no cluster do GKE. O uso do Cloud Load Balancing ajuda a garantir alta disponibilidade, escalonabilidade e desempenho ideal para o aplicativo de IA e ML. Para mais informações, consulte Noções básicas sobre o balanceamento de carga do GKE.
Unidade de processamento gráfico (GPU) ou Unidades de processamento de tensor (TPUs)	GPUs e TPUs são aceleradores de máquina especializados que melhoram a performance da carga de trabalho de IA e ML. Para mais informações sobre como escolher um tipo de processador adequado, consulte Opções de acelerador mais adiante neste documento.
Parallelstore	O Parallelstore acelera o treinamento e a disponibilização de IA e ML oferecendo um sistema de arquivos paralelo de alto desempenho otimizado para baixa latência e alta capacidade de processamento. Em comparação com o uso do Cloud Storage sozinho, o Parallelstore reduz significativamente o tempo de treinamento e melhora a capacidade de resposta dos modelos durante a veiculação. Essas melhorias são especialmente notadas em cargas de trabalho que exigem acesso rápido e consistente a dados compartilhados.
Cloud Storage	O Cloud Storage oferece armazenamento permanente e econômico para cargas de trabalho de IA e ML. O Cloud Storage serve como o repositório central para seus conjuntos de dados brutos de treinamento, checkpoints de modelos e modelos treinados finais. O uso do Cloud Storage ajuda a garantir a durabilidade dos dados, a disponibilidade a longo prazo e a eficiência de custos para dados que não estão sendo usados ativamente em cálculos.

Carga de trabalho de treinamento

Na arquitetura anterior, estas são as etapas do fluxo de dados durante o treinamento do modelo:

Fazer upload de dados de treinamento para o Cloud Storage: você faz upload de dados de treinamento para um bucket do Cloud Storage, que serve como um repositório central seguro e escalonável e como fonte de verdade.
Copiar dados para o Parallelstore: o conjunto de dados de treinamento é transferido por uma importação de API em massa para uma instância do Parallelstore do Cloud Storage. A transferência dos dados de treinamento permite que você aproveite os recursos do sistema de arquivos de alto desempenho do Parallelstore para otimizar a velocidade de carregamento e processamento de dados durante o treinamento do modelo.
Executar jobs de treinamento no GKE: o processo de treinamento de modelo é executado em nós do GKE. Ao usar o Parallelstore como a fonte de dados em vez de carregar dados diretamente do Cloud Storage, os nós do GKE podem acessar e carregar dados de treinamento com velocidade e eficiência significativamente maiores. O uso do Parallelstore ajuda a reduzir os tempos de carregamento de dados e acelerar o processo de treinamento geral, especialmente para grandes conjuntos de dados e modelos complexos. Dependendo dos requisitos da carga de trabalho, você pode usar GPUs ou TPUs. Para saber como escolher um tipo de processador adequado, consulte Opções de acelerador mais adiante neste documento.
Salvar checkpoints de treinamento no Parallelstore: durante o processo de treinamento, os checkpoints são salvos no Parallelstore com base nas métricas ou nos intervalos que você define. Os pontos de verificação capturam o estado do modelo em intervalos frequentes.
Salvar pontos de verificação e modelo no Cloud Storage: recomendamos usar uma exportação de API em massa da instância do Parallelstore para salvar alguns pontos de verificação e o modelo treinado no Cloud Storage. Essa prática garante tolerância a falhas e possibilita casos de uso futuros, como retomar o treinamento de um ponto específico, implantar o modelo para produção e realizar outros experimentos. Como prática recomendada, armazene os pontos de verificação em um bucket diferente dos dados de treinamento.
- Restaurar checkpoints ou modelo: quando o fluxo de trabalho de IA e ML exige que você restaure checkpoints ou dados de modelo, é necessário localizar o recurso que você quer restaurar no Cloud Storage. Selecione o recurso a ser restaurado com base na marcação de tempo, na métrica de performance ou em uma versão específica. Use a importação de API para transferir o recurso do Cloud Storage para o Parallelstore e, em seguida, carregue o recurso no contêiner de treinamento. Em seguida, use o ponto de verificação ou modelo restaurado para retomar o treinamento, ajustar parâmetros ou avaliar o desempenho em um conjunto de validação.

Como disponibilizar cargas de trabalho

Na arquitetura anterior, estas são as etapas do fluxo de dados durante a veiculação do modelo:

Carregar o modelo para veiculação: depois que o treinamento é concluído, os pods carregam o modelo treinado nos nós de veiculação. Se a instância do Parallelstore que você usou durante o treinamento tiver capacidade de IOPS suficiente, será possível acelerar o carregamento do modelo e reduzir os custos usando a instância de treinamento para fornecer o modelo. A reutilização da instância de treinamento permite compartilhar recursos de forma eficiente entre o treinamento e a disponibilização. No entanto, para manter o desempenho e a compatibilidade ideais, use um tipo de acelerador (GPU ou TPU) para treinamento que seja consistente com o tipo de acelerador disponível nos nós do GKE de veiculação.
Solicitação de inferência: os usuários do aplicativo enviam solicitações de inferência pelo aplicativo de IA e ML. Essas solicitações são direcionadas ao serviço do Cloud Load Balancing. O Cloud Load Balancing distribui as solicitações recebidas entre os contêineres de veiculação no cluster do GKE. Essa distribuição garante que nenhum contêiner seja sobrecarregado e que as solicitações sejam processadas de forma eficiente.
Exibição de solicitações de inferência: durante a produção, o sistema processa solicitações de inferência de forma eficiente usando o cache de exibição do modelo. Os nós de computação interagem com o cache verificando primeiro se há uma previsão correspondente. Se uma previsão correspondente for encontrada, ela será retornada diretamente, o que ajuda a otimizar os tempos de resposta e o uso de recursos. Caso contrário, o modelo processa a solicitação, gera uma previsão e a armazena no cache para eficiência futura.
Entrega de respostas: os contêineres de exibição enviam as respostas de volta pelo Cloud Load Balancing. O Cloud Load Balancing encaminha as respostas de volta aos usuários de aplicativos apropriados, o que conclui o ciclo de solicitação de inferência.

Produtos usados

Esta arquitetura de referência usa os seguintes Google Cloud produtos:

Nuvem privada virtual (VPC): um sistema virtual que oferece funcionalidade de rede global e escalonável para suas cargas de trabalho Google Cloud . A VPC inclui peering de rede VPC, Private Service Connect, acesso a serviços particulares e VPC compartilhada.
Google Kubernetes Engine (GKE): um serviço do Kubernetes que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google.
Cloud Storage: um armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e de fora do Google Cloude são replicados entre locais para redundância.
Parallelstore: um sistema de arquivos paralelo totalmente gerenciado para IA, computação de alto desempenho (HPC) e aplicativos com uso intensivo de dados.

Casos de uso

O Parallelstore é ideal para cargas de trabalho de IA e ML com até 100 TiB de capacidade de armazenamento e que precisam fornecer acesso de baixa latência (submilissegundos) com alta capacidade de processamento e IOPS. As seções a seguir fornecem exemplos de casos de uso em que é possível usar o Parallelstore.

Processamento e geração de texto

Os modelos de linguagem grandes (LLMs) são modelos de IA especializados projetados especificamente para entender e processar dados baseados em texto. Os LLMs são treinados com grandes conjuntos de dados de texto, o que permite que eles realizem várias tarefas, incluindo tradução automática, resposta a perguntas e resumo de texto. O treinamento de modelos de LLM exige acesso de baixa latência aos conjuntos de dados para processamento de solicitações eficiente e geração de texto. O Parallelstore se destaca em aplicativos com uso intensivo de dados, fornecendo a alta capacidade de processamento e a baixa latência necessárias para treinamento e inferência, resultando em aplicativos mais responsivos com LLM.

Processamento de imagens ou vídeos em alta resolução

Aplicativos tradicionais de IA e ML ou modelos generativos multimodais que processam imagens ou vídeos de alta resolução, como análise de imagens médicas ou sistemas de direção autônoma, exigem grande capacidade de armazenamento e acesso rápido a dados. O sistema de arquivos temporário de alto desempenho do Parallelstore permite o carregamento rápido de dados para acelerar o desempenho do aplicativo. Por exemplo, o Parallelstore pode reter e processar temporariamente grandes volumes de dados de pacientes, como ressonâncias magnéticas e tomografias, que são extraídos do Cloud Storage. Essa funcionalidade permite que os modelos de IA e ML analisem rapidamente os dados para diagnóstico e tratamento.

Alternativas de design

As seções a seguir apresentam abordagens de design alternativas que podem ser consideradas para seu aplicativo de IA e ML em Google Cloud.

Alternativa de plataforma

Em vez de hospedar o treinamento de modelo e o fluxo de trabalho de exibição no GKE, considere usar o Compute Engine com o Slurm. O Slurm é um gerenciador de recursos e cargas de trabalho de código aberto e altamente configurável. O uso do Compute Engine com o Slurm é particularmente adequado para treinamento e simulações de modelos em grande escala. Recomendamos o uso do Compute Engine com o Slurm se você precisar integrar a propriedade intelectual (IP) de IA e ML em um ambiente escalonável com a flexibilidade e o controle necessários para otimizar o desempenho para cargas de trabalho especializadas.

No Compute Engine, você provisiona e gerencia máquinas virtuais (VMs), o que oferece controle granular sobre tipos de instâncias, armazenamento e rede. É possível adaptar sua infraestrutura às suas necessidades exatas, incluindo a seleção de tipos de máquinas VM específicos. Você também pode usar a família de máquinas otimizadas para aceleradores para melhorar o desempenho com suas cargas de trabalho de IA e ML. Para mais informações sobre as famílias de tipo de máquina disponíveis no Compute Engine, consulte o Guia de comparação e recursos para famílias de máquinas.

O Slurm oferece uma opção poderosa para gerenciar cargas de trabalho de IA e ML e permite controlar a configuração e o gerenciamento dos recursos computacionais. Para usar essa abordagem, você precisa ter experiência em administração do Slurm e gerenciamento de sistemas Linux.

Opções do acelerador

Os aceleradores de máquina são processadores especializados projetados para acelerar os cálculos necessários para cargas de trabalho de IA e ML. Você pode escolher entre unidades de processamento gráfico (GPUs) ou unidades de processamento de tensor (TPUs).

Os aceleradores de GPU oferecem excelente desempenho para uma ampla gama de tarefas, incluindo renderização gráfica, treinamento de aprendizado profundo e computação científica. Google Cloud tem uma ampla seleção de GPUs para atender a várias faixas de desempenho e preço. Para informações sobre modelos de GPU e preços, consulte Preços de GPU.
As TPUs são aceleradores de IA personalizados, otimizados para treinamento e inferência de grandes modelos de IA. Eles são ideais para diversos casos de uso, como bots de chat, geração de código, geração de conteúdo de mídia, fala sintética, serviços de visão, mecanismos de recomendação, modelos de personalização, entre outros. Para mais informações sobre modelos e preços de TPU, consulte Preços de TPU.

Como veicular alternativas de armazenamento

O Cloud Storage FUSE com um bucket multirregional ou birregional oferece o maior nível de disponibilidade, porque seus modelos de IA e ML treinados são armazenados no Cloud Storage e em várias regiões. Embora o Cloud Storage FUSE tenha uma taxa de transferência menor por VM do que o Parallelstore, ele permite aproveitar a escalabilidade e o custo-benefício do Cloud Storage. Para acelerar o carregamento de modelos e melhorar o desempenho, principalmente para cargas de trabalho exigentes, use instâncias do Parallelstore atuais ou novas em cada região. Para saber como melhorar o desempenho com o Cloud Storage FUSE, consulte Otimizar o driver CSI do Cloud Storage FUSE para a performance do GKE.

O Hyperdisk ML do Google Cloud é uma solução de armazenamento em blocos de alto desempenho projetada para acelerar cargas de trabalho de IA e ML em grande escala que exigem acesso somente leitura a grandes conjuntos de dados. O Hyperdisk ML pode ser provisionado com uma capacidade de processamento agregada maior, mas ele alcança uma capacidade de processamento menor por VM em comparação com o Parallelstore.

Além disso, os volumes do Hyperdisk ML só podem ser acessados por VMs de GPU ou TPU na mesma zona. Portanto, para clusters regionais do GKE que atendem várias zonas, é necessário provisionar volumes do Hyperdisk ML separados em cada zona. Essa posição é diferente do Parallelstore, em que você precisa de apenas uma instância por região. Também é importante observar que o Hyperdisk ML é somente leitura. Para mais informações sobre como usar o Hyperdisk ML em cargas de trabalho de IA e ML, consulte Acelerar o carregamento de dados de IA/ML com o Hyperdisk ML.

Considerações sobre o design

Para projetar uma implantação do Parallelstore que otimize a performance e a eficiência de custos dos seus workloads de IA e ML no Google Cloud, use as diretrizes nas seções a seguir. As diretrizes descrevem recomendações a serem consideradas ao usar o Parallelstore como parte de uma solução híbrida que combina várias opções de armazenamento para tarefas específicas no fluxo de trabalho.

Treinamento

Treinamento de modelo de IA e ML exige que você forneça dados de forma iterativa ao modelo, ajuste os parâmetros e avalie o desempenho em cada iteração. Esse processo pode ser computacionalmente intenso e gera um grande volume de solicitações de E/S devido à necessidade constante de ler dados de treinamento e gravar parâmetros de modelo atualizados.

Para maximizar os benefícios de desempenho durante o treinamento, recomendamos o seguinte:

Armazenamento em cache: use o Parallelstore como um cache de alto desempenho no Cloud Storage.
Pré-busca: importe dados para o Parallelstore do Cloud Storage para minimizar a latência durante o treinamento. Você também pode usar o GKE Volume Populator para pré-preencher PersistentVolumesClaims com dados do Cloud Storage.
Otimização de custos: exporte seus dados para uma classe do Cloud Storage com custo menor após o treinamento para minimizar as despesas de armazenamento a longo prazo. Como os dados persistentes são armazenados no Cloud Storage, é possível destruir e recriar instâncias do Parallelstore conforme necessário para seus jobs de treinamento.
Integração do GKE: faça a integração com o driver da interface de armazenamento do contêiner (CSI) do GKE para gerenciamento simplificado. Para saber como conectar um cluster do GKE a uma instância do Parallelstore, consulte Driver CSI do Parallelstore do Google Kubernetes Engine.
Desempenho da VM A3: ofereça mais de 20 GB/s (aproximadamente 2,5 GB/s por GPU) nas variantes A3 para entrega de dados ideal.
Acesso simultâneo: use a instância do Parallelstore para acomodar leituras e gravações full-duplex.

Ao implantar o Parallelstore para treinamento, considere o seguinte:

Sistema de arquivos temporários: configure intervalos de verificação em todo o processo de treinamento. O Parallelstore é um sistema de arquivos temporários, o que significa que os dados são armazenados temporariamente. Na faixa de 100 TiB, o tempo médio para perda de dados é de dois meses. No intervalo de 23 TiB, o tempo médio estimado para a perda de dados é de 12 meses ou mais.
Striping de arquivos e diretórios: otimize o stripping de arquivos e diretórios para o tamanho de arquivo predominante para maximizar o desempenho.
Otimização de custos: otimize custos preparando dados adequadamente no Cloud Storage em vez do Parallelstore.
Seleção de zona: otimize o custo e o desempenho localizando clientes de computação de GPU ou TPU e nós de armazenamento na mesma zona.

Para mais informações sobre como configurar seu ambiente do Parallelstore para otimizar o desempenho, consulte Considerações sobre desempenho.

Como estabelecer pontos de verificação

O checkpoint é um aspecto essencial do treinamento de modelo de IA e ML. O checkpoint permite salvar o estado do modelo em vários pontos durante o processo. Assim, é possível retomar o treinamento a partir de um checkpoint salvo em caso de interrupções, falhas do sistema ou para explorar diferentes configurações de hiperparâmetro. Quando você usa o Parallelstore para treinamento, é crucial também usá-lo para criar checkpoints para aproveitar a alta taxa de transferência de gravação e minimizar o tempo de treinamento. Essa abordagem garante a utilização eficiente de recursos e ajuda a reduzir o TCO dos recursos da GPU, mantendo o treinamento e o checkpoint o mais rápido possível.

Para otimizar o fluxo de trabalho de verificação com o Parallelstore, considere estas práticas recomendadas:

Ponto de verificação rápido: aproveite as gravações de ponto de verificação rápido com o Parallelstore. É possível alcançar um throughput de 0,5 GB/s por TiB de capacidade e mais de 12 GB/s por VM A3.
Armazenamento seletivo de checkpoints: exporte checkpoints selecionados do Parallelstore para o Cloud Storage para armazenamento de longo prazo e recuperação de desastres.
Operações simultâneas: aproveite a duplexação completa de leitura e gravação usando o Parallelstore simultaneamente para treinamento e gravações de checkpoint.

Disponibilização

A veiculação envolve a implantação dos modelos de IA e ML treinados para processar solicitações de inferência. Para alcançar o desempenho ideal, é fundamental minimizar o tempo necessário para carregar esses modelos na memória. Embora o Parallelstore seja principalmente projetado para cargas de trabalho de treinamento, é possível usar a alta taxa de transferência do Parallelstore por VM (mais de 20 GB/s) e a taxa de transferência agregada do cluster para minimizar os tempos de carregamento do modelo em milhares de VMs. Para acompanhar as principais métricas que permitem identificar gargalos e garantir a eficiência ideal, use o Cloud Monitoring.

Ao implantar o Parallelstore para veiculação, considere o seguinte:

Alta capacidade de processamento: maximize a performance do Parallelstore usando o Cloud Monitoring para garantir que você implemente capacidade suficiente para alcançar até 125 GB/s de capacidade de processamento em 100 TiB.
Possibilidade de interrupções no serviço: como o Parallelstore é um sistema de arquivos temporário, ele pode ter interrupções ocasionais no serviço. O tempo médio para perda de dados é de aproximadamente dois meses para um cluster de 100 TiB.
Restaurar dados: se ocorrer uma interrupção do serviço, será necessário restaurar os dados do Parallelstore do backup mais recente do Cloud Storage. Os dados são transferidos a uma velocidade de aproximadamente 16 GB/s.
Instâncias compartilhadas: o uso de uma instância do Parallelstore para treinamento e disponibilização maximiza a utilização de recursos e pode ser econômico. No entanto, pode haver uma possível contenção de recursos se as duas cargas de trabalho tiverem demandas de rendimento altas. Se IOPS extras estiverem disponíveis após o treinamento, o uso da mesma instância pode acelerar o carregamento do modelo para exibição. Use o Cloud Monitoring para garantir que você aloque recursos suficientes para atender às demandas de capacidade.
Instâncias separadas: o uso de instâncias separadas oferece isolamento de performance, melhora a segurança isolando dados de treinamento e aprimora a proteção de dados. Embora as listas de controle de acesso possam gerenciar a segurança em uma única instância, as instâncias separadas oferecem um limite de segurança mais robusto.

Opções de posicionamento

Para minimizar a latência e maximizar o desempenho, crie sua instância do Parallelstore em uma região geograficamente próxima aos clientes de computação de GPU ou TPU.

Para treinamento e checkpointing: para resultados ideais, verifique se os clientes e as instâncias do Parallelstore estão na mesma zona. Essa colocalização minimiza os tempos de transferência de dados e maximiza a utilização da capacidade de gravação do Parallelstore.
Para veiculação: embora a colocação com clientes de computação na mesma zona seja ideal, ter uma instância do Parallelstore por região é suficiente. Essa abordagem evita custos extras associados à implantação de várias instâncias e ajuda a maximizar o desempenho da computação. No entanto, se você precisar de mais capacidade ou rendimento, considere implantar mais de uma instância por região.

A implantação do Parallelstore em duas regiões pode melhorar significativamente a performance, mantendo os dados geograficamente mais próximos das GPUs ou TPUs usadas para veiculação. Essa posição reduz a latência e permite o acesso mais rápido aos dados durante a inferência. Se ocorrer uma falha temporária regional, os aplicativos de treinamento e veiculação ficarão indisponíveis para os usuários.

Para garantir alta disponibilidade e confiabilidade, instancie uma réplica dessa arquitetura em uma região diferente. Quando você cria uma arquitetura geograficamente redundante, seu aplicativo de IA e ML pode continuar operando mesmo se uma região tiver uma interrupção. Para fazer backup e restaurar os dados do cluster e do Cloud Storage em uma região diferente, use o Backup para o GKE.

Para informações sobre os locais com suporte para instâncias do Parallelstore, consulte Locais com suporte.

Implantação

Para criar e implantar essa arquitetura de referência, recomendamos o uso do Cluster Toolkit. O Cluster Toolkit é um kit de ferramentas modular baseado no Terraform que foi projetado para implantação de ambientes de IA e ML repetíveis no Google Cloud. Para definir seu ambiente, use o modelo de treinamento do GKE e do Parallelstore. Para provisionar e gerenciar instâncias do Parallelstore para seus clusters, consulte o módulo do Parallelstore.

Para saber como implantar o Parallelstore manualmente, consulte Criar uma instância do Parallelstore. Para melhorar ainda mais a escalonabilidade e a performance com o provisionamento dinâmico, crie e use um volume com suporte de uma instância do Parallelstore no GKE.

A seguir

Saiba mais sobre como usar sistemas de arquivos paralelos para cargas de trabalho de HPC.
Saiba mais sobre as práticas recomendadas para implementar o machine learning no Google Cloud.
Saiba mais sobre como projetar armazenamento para cargas de trabalho de IA e ML em Google Cloud.
Saiba mais sobre como treinar um modelo do TensorFlow com o Keras no GKE.
Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.

Colaboradores

Autor: Samantha He | Redator técnico

Outros colaboradores:

Dean Hildebrand | Diretor técnico, escritório do CTO
Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
Sean Derrington | Gerente de produtos externos do grupo, Armazenamento