Escolher um método de treinamento personalizado

Se você estiver escrevendo seu próprio código de treinamento em vez de usar o AutoML, há várias maneiras de fazer o treinamento personalizado. Neste tópico, apresentamos uma breve visão geral e comparação das diferentes maneiras de executar o treinamento personalizado.

Recursos de treinamento personalizados na Vertex AI

É possível criar três tipos de recursos da Vertex AI para treinar modelos personalizados na Vertex AI:

Ao criar um job personalizado, você especifica as configurações que a Vertex AI precisa executar no seu código de treinamento, incluindo:

Um pool de workers para treinamento de nó único (WorkerPoolSpec) ou vários pools de workers para treinamento distribuído
Configurações opcionais para configurar a programação do job (Scheduling), configurar algumas variáveis de ambiente para o código de treinamento, usando um personalizado }conta de serviço e usando o Peering de redes VPC

Nos pools de workers, é possível especificar as seguintes configurações:

Tipos de máquina e aceleradores
Configuração do tipo de código de treinamento que o pool de workers executa: um aplicativo de treinamento em Python (PythonPackageSpec) ou um contêiner personalizado (ContainerSpec).

Os jobs de ajuste de hiperparâmetros têm outras configurações a serem definidas, como a métrica. Saiba mais sobre o ajuste de hiperparâmetros.

Um pipeline de treinamento orquestra jobs de treinamento ou jobs de ajuste de hiperparâmetros personalizados com etapas adicionais, como o carregamento de um conjunto de dados ou o upload do modelo na Vertex AI após a conclusão do job de treinamento.

Recursos de treinamento personalizados

Para visualizar os pipelines de treinamento atuais no projeto, acesse a página Pipelines de treinamento na seção Vertex AI do Console do Google Cloud.

Acessar pipelines de treinamento

Para ver os jobs personalizados no projeto, acesse a página Jobs personalizados.

Acessar "Jobs personalizados"

Para visualizar os jobs de ajuste de hiperparâmetros existentes no projeto, acesse a página Ajuste de hiperparâmetros.

Acesse o ajuste de hiperparâmetros

Contêineres pré-criados e personalizados

Antes de enviar um job de treinamento personalizado, um job de ajuste de hiperparâmetros ou um pipeline de treinamento para a Vertex AI, é necessário criar um aplicativo de treinamento em Python ou um contêiner personalizado para definir o código de treinamento e as dependências que você quer executar na Vertex AI. Se você criar um aplicativo de treinamento em Python usando o TensorFlow, o PyTorch, o scikit-learn ou o XGBoost, poderá usar nossos contêineres pré-criados para executar o código. Se você não tiver certeza de qual dessas opções escolher, consulte os requisitos do código de treinamento para saber mais.

Treinamento distribuído

É possível configurar um job de treinamento personalizado, um job de ajuste de hiperparâmetros ou um pipeline de treinamento para treinamento distribuído especificando vários pools de workers:

Use o primeiro pool de workers para configurar a réplica principal e defina a contagem de réplicas como 1.
Adicione mais pools de workers para configurar réplicas de workers, réplicas de servidores de parâmetros ou réplicas de avaliadores se o framework de machine learning for compatível com essas tarefas adicionais do cluster para treinamento distribuído.

Saiba mais sobre como usar o treinamento distribuído.

A seguir

Saiba como criar um recurso permanente para executar jobs de treinamento personalizados.
Consulte Criar jobs de treinamento personalizados para aprender a criar jobs de treinamento personalizados para executar seus aplicativos de treinamento personalizados no Vertex AI.
Consulte Criar pipelines de treinamento para aprender a criar pipelines de treinamento para executar aplicativos de treinamento personalizados no Vertex AI.
Consulte Usar ajuste de hiperparâmetros para saber mais sobre as pesquisas de ajuste de hiperparâmetros.