Escolher um método de treinamento personalizado

Se você estiver escrevendo seu próprio código de treinamento em vez de usar o AutoML, há várias maneiras de fazer o treinamento personalizado. Neste tópico, apresentamos uma breve visão geral e comparação das diferentes maneiras de executar o treinamento personalizado.

Recursos de treinamento personalizados na Vertex AI

É possível criar três tipos de recursos da Vertex AI para treinar modelos personalizados na Vertex AI:

Ao criar um job personalizado, você especifica as configurações que a Vertex AI precisa executar no seu código de treinamento, incluindo:

Nos pools de workers, é possível especificar as seguintes configurações:

Os jobs de ajuste de hiperparâmetros têm outras configurações a serem definidas, como a métrica. Saiba mais sobre o ajuste de hiperparâmetros.

Um pipeline de treinamento orquestra jobs de treinamento ou jobs de ajuste de hiperparâmetros personalizados com etapas adicionais, como o carregamento de um conjunto de dados ou o upload do modelo na Vertex AI após a conclusão do job de treinamento.

Recursos de treinamento personalizados

Para visualizar os pipelines de treinamento atuais no projeto, acesse a página Pipelines de treinamento na seção Vertex AI do Console do Google Cloud.

Acessar pipelines de treinamento

Para ver os jobs personalizados no projeto, acesse a página Jobs personalizados.

Acessar "Jobs personalizados"

Para visualizar os jobs de ajuste de hiperparâmetros existentes no projeto, acesse a página Ajuste de hiperparâmetros.

Acesse o ajuste de hiperparâmetros

Contêineres pré-criados e personalizados

Antes de enviar um job de treinamento personalizado, um job de ajuste de hiperparâmetros ou um pipeline de treinamento para a Vertex AI, é necessário criar um aplicativo de treinamento em Python ou um contêiner personalizado para definir o código de treinamento e as dependências que você quer executar na Vertex AI. Se você criar um aplicativo de treinamento em Python usando o TensorFlow, o PyTorch, o scikit-learn ou o XGBoost, poderá usar nossos contêineres pré-criados para executar o código. Se você não tiver certeza de qual dessas opções escolher, consulte os requisitos do código de treinamento para saber mais.

Treinamento distribuído

É possível configurar um job de treinamento personalizado, um job de ajuste de hiperparâmetros ou um pipeline de treinamento para treinamento distribuído especificando vários pools de workers:

  • Use o primeiro pool de workers para configurar a réplica principal e defina a contagem de réplicas como 1.
  • Adicione mais pools de workers para configurar réplicas de workers, réplicas de servidores de parâmetros ou réplicas de avaliadores se o framework de machine learning for compatível com essas tarefas adicionais do cluster para treinamento distribuído.

Saiba mais sobre como usar o treinamento distribuído.

A seguir