Como executar um pipeline de machine learning

O IA Platform Pipelines fornece uma plataforma que pode ser usada para automatizar seu fluxo de trabalho de machine learning (ML) como um pipeline. Ao executar seu processo de machine learning como um pipeline, é possível fazer o seguinte:

  • Executar pipelines ad-hoc.
  • Programar execuções recorrentes para treinar seu modelo regularmente.
  • Fazer testes usando seu pipeline com diferentes conjuntos de hiperparâmetros, número de etapas de treinamento ou iterações etc. Compare os resultados dos seus testes.

Neste guia, descrevemos como executar um pipeline e programar execuções recorrentes. Além disso, fornecemos recursos que podem ser usados para saber mais sobre a interface do usuário do Kubeflow Pipelines.

Antes de começar

Neste guia, descrevemos como usar a interface do usuário do Kubeflow Pipelines para executar um pipeline. Antes de executar um pipeline, configure o cluster do AI Platform Pipelines e verifique se você tem permissões suficientes para acessar o cluster dele.

Executar um pipeline de machine learning

Use as instruções a seguir para executar um pipeline de ML no cluster do AI Platform Pipelines.

  1. Abra o AI Platform Pipelines no Console do Google Cloud.

    Acesse o AI Platform Pipelines

  2. Clique em Abrir painel de pipelines para o cluster do Kubeflow Pipelines. A interface do usuário do Kubeflow Pipelines é aberta em uma nova guia.

  3. No painel de navegação à esquerda, clique em Pipelines.

  4. Clique no nome do pipeline que você quer executar. Se você ainda não carregou um pipeline, clique no nome de um exemplo de pipeline, como [Demo] TFX - Taxi Tip Prediction Model Trainer. Será aberto um gráfico que exibe as etapas no pipeline.

  5. Para executar ou programar o pipeline, clique em Criar execução. Será aberto um formulário para você inserir os detalhes da execução.

  6. Antes de executar um pipeline, é preciso especificar os detalhes da execução, o tipo de execução e os parâmetros de execução.

    • Na seção Detalhes da execução, especifique o seguinte:

      1. Pipeline: selecione o pipeline que você quer executar.
      2. Versão do pipeline: selecione a versão do pipeline que você quer executar.
      3. Nome da execução: insira um nome exclusivo para essa execução. Use o nome para encontrar essa execução mais tarde.
      4. Descrição (opcional): insira uma descrição para fornecer mais informações sobre essa execução.
      5. Teste (opcional): para agrupar execuções relacionadas, selecione um teste.
    • Na seção Tipo de execução, indique com que frequência essa execução precisa ser executada.

      1. Selecione esta opção se for Uma vez ou Recorrente.
      2. Se esta for uma execução recorrente, especifique o acionador de execução:

        1. Tipo de acionador: selecione esta opção se ela for acionada periodicamente ou com base em uma programação cron.
        2. Máximo de execuções simultâneas: insira o número máximo de execuções que podem estar ativas de uma só vez.
        3. Tem data de início: marque Tem data de início e insira Data de início e Horário de início para especificar quando esse acionador começará a gerar execuções.
        4. Tem data de término: marque Tem data de término e insira Data de término e Hora de término para especificar quando esse acionador parará de gerar execuções.
        5. Executar a cada: selecione a frequência para acionar novas execuções. Se esta execução for acionada com base em uma programação cronológica, marque Permitir edição da expressão Cron para inserir diretamente uma expressão Cron.
    • Nos parâmetros de execução, personalize os parâmetros do pipeline para essa execução. É possível usar parâmetros para definir valores como caminhos a fim de carregar dados de treinamento ou armazenar artefatos, hiperparâmetros, o número de iterações de treinamento etc. Os parâmetros de um pipeline são definidos quando o pipeline é criado.

      Se você estiver executando o pipeline [Demo] TFX - Taxi Tip Prediction Model Trainer, especifique o seguinte:

      1. pipeline-root: o parâmetro de raiz do pipeline especifica onde a saída do pipeline será armazenada. Esse pipeline salva os artefatos de execução no bucket padrão do Cloud Storage do AI Platform Pipelines.

        É possível substituir esse valor para especificar o caminho em um bucket diferente do Cloud Storage que o cluster pode acessar. Saiba mais sobre como criar um bucket do Cloud Storage.

      2. data-root: o parâmetro data-root especifica o caminho para os dados de treinamento do pipeline. Use o valor padrão.

      3. module-file: o parâmetro module-file especifica o caminho para o código-fonte de um módulo usado nesse pipeline. Use o valor padrão.

        Ao carregar o código de um bucket do Cloud Storage, é possível alterar rapidamente o comportamento de um componente sem recriar a imagem do contêiner do componente.

  7. Clique em Iniciar. O painel de pipelines exibe uma lista de execuções de pipeline.

  8. Clique no nome da sua execução na lista de execuções do pipeline. Será exibido o grafo da execução. Enquanto sua execução ainda está em andamento, o gráfico é alterado à medida que cada etapa é executada.

  9. Clique nas etapas do pipeline para explorar as entradas, saídas e registros da execução, entre outras informações.

Noções básicas sobre a interface do usuário do Kubeflow Pipelines

Use os seguintes recursos para saber mais sobre a interface do usuário do Kubeflow Pipelines

A seguir