Informações gerais sobre as opções de treinamento personalizado na Vertex AI

Comparar o treinamento personalizado da Vertex AI e o Ray na Vertex AI

A Vertex AI oferece duas opções de treinamento personalizado: o treinamento personalizado da Vertex AI e o Ray na Vertex AI. Esta página oferece contexto para ajudar a escolher entre essas duas opções.

Vertex AI Training Ray na Vertex AI
Foco Treinamento de modelo personalizado de uso geral. Escalonamento de aplicativos de IA e Python, incluindo treinamento de modelo, aplicativos distribuídos e disponibilização de modelos.
Framework subjacente Oferece suporte a vários frameworks de ML, como TensorFlow, PyTorch e scikit-learn. Usa o framework Ray de código aberto. Suporta vários frameworks: TensorFlow, PyTorch, scikit-learn e Spark no Ray usando RayDP.
Flexibilidade Alta flexibilidade em termos de código e ambiente. Alta flexibilidade para criar aplicativos distribuídos. É possível usar o código Ray atual com mudanças mínimas.
Escalonabilidade Oferece suporte a treinamento distribuído em várias máquinas. Oferece recursos de computação escalonáveis (CPUs, GPUs, TPUs). Projetado para alta escalonabilidade usando os recursos de computação distribuída do Ray (até 2.000 nós). Aceita configurações manuais e de escalonamento automático.
Integração Integrado a outros serviços da Vertex AI (conjuntos de dados, Vertex AI Experiments e muito mais). Integração com outros serviços Google Cloud , como a inferência da Vertex AI e o BigQuery.
Facilidade de uso Mais fácil de usar para paradigmas de treinamento distribuído padrão. É necessário ter familiaridade com os conceitos do framework Ray.
Ambiente Ambiente gerenciado para executar código de treinamento personalizado usando contêineres pré-criados ou personalizados. Ambiente gerenciado para executar aplicativos distribuídos usando o framework Ray. Simplifica o gerenciamento do cluster do Ray na Vertex AI.
Ajuste de hiperparâmetros Inclui recursos de ajuste de hiperparâmetros. Simplifica o ajuste de hiperparâmetros com ferramentas para otimização eficiente e gerenciamento de experimentos.
Pipelines de treinamento Suporta fluxos de trabalho complexos de ML com várias etapas. Não relevante.

Principais diferenças entre o treinamento personalizado da Vertex AI e o Ray na Vertex AI

O treinamento personalizado da Vertex AI é um serviço mais amplo que gerencia vários métodos de treinamento, enquanto o Ray na Vertex AI usa especificamente o framework de computação distribuída do Ray.

Vertex AI Training Ray na Vertex AI
Foco Focado principalmente no desenvolvimento e treinamento de modelos. Gerencia vários métodos de treinamento. Projetado para aplicativos Python distribuídos de uso geral, incluindo processamento de dados, exibição de modelos e escalonamento de treinamento.
Framework subjacente Vinculado aos recursos distribuídos de frameworks de ML específicos (por exemplo, TensorFlow, PyTorch). Usa o Ray como o framework central de computação distribuída. Processa a distribuição de tarefas, independente do framework de ML subjacente usado nas tarefas do Ray.
Configuração de recursos Configure recursos para jobs de treinamento individuais. Gerenciar clusters do Ray na Vertex AI. O Ray processa a distribuição de tarefas no cluster.
Configuração da distribuição Configure o número e os tipos de réplicas para um job de treinamento específico. Configure o tamanho e a composição do cluster do Ray na Vertex AI. O programador do Ray distribui dinamicamente tarefas e atores entre os nós disponíveis.
Escopo da distribuição Geralmente focado em um único job de treinamento potencialmente de longa duração. Oferece um ambiente de computação distribuída mais persistente e de uso geral em que é possível executar várias tarefas e aplicativos distribuídos durante o ciclo de vida do cluster do Ray.

Resumo

Se você precisar usar o poder da computação distribuída com o framework Ray no ambiente Google Cloud , o Ray na Vertex AI é o serviço a ser usado. O Ray na Vertex AI pode ser considerado uma ferramenta específica no ecossistema maior da Vertex AI, especialmente útil para cargas de trabalho altamente escalonáveis e distribuídas.

Se você precisar de uma plataforma gerenciada mais geral para várias abordagens de treinamento de modelos, incluindo opções automatizadas, execução de código personalizado e ajuste de hiperparâmetros, os serviços de treinamento personalizado da Vertex AI serão úteis.