Fluxo de trabalho tabular para o AutoML integral

Este documento oferece uma vista geral do pipeline e dos componentes do AutoML ponto a ponto. Para saber como preparar um modelo com o AutoML completo, consulte o artigo Prepare um modelo com o AutoML completo.

O fluxo de trabalho tabular para o AutoML completo é um pipeline do AutoML completo para tarefas de classificação e regressão. É semelhante à API AutoML, mas permite-lhe escolher o que controlar e o que automatizar. Em vez de ter controlos para todo o pipeline, tem controlos para cada passo no pipeline. Estes controlos do pipeline incluem:

  • Divisão de dados
  • Engenharia de funcionalidades
  • Pesquisa de arquitetura
  • Preparação de modelos
  • Agregação de modelos
  • Destilação de modelos

Vantagens

Seguem-se algumas das vantagens do fluxo de trabalho tabular para o AutoML integral :

  • Suporta grandes conjuntos de dados com vários TB e até 1000 colunas.
  • Permite melhorar a estabilidade e reduzir o tempo de preparação, limitando o espaço de pesquisa de tipos de arquitetura ou ignorando a pesquisa de arquitetura.
  • Permite melhorar a velocidade de preparação selecionando manualmente o hardware usado para a preparação e a pesquisa de arquitetura.
  • Permite reduzir o tamanho do modelo e melhorar a latência com a destilação ou alterando o tamanho do conjunto.
  • Cada componente do AutoML pode ser inspecionado numa interface de gráfico de pipelines avançada que lhe permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos mais detalhes.
  • Cada componente do AutoML tem uma flexibilidade e uma transparência alargadas, como a capacidade de personalizar parâmetros, hardware, ver o estado do processo, registos e muito mais.

AutoML ponto a ponto no Vertex AI Pipelines

O fluxo de trabalho tabular para o AutoML ponto a ponto é uma instância gerida do Vertex AI Pipelines.

O Vertex AI Pipelines é um serviço sem servidor que executa pipelines Kubeflow. Pode usar pipelines para automatizar e monitorizar as suas tarefas de aprendizagem automática e preparação de dados. Cada passo num pipeline executa parte do fluxo de trabalho do pipeline. Por exemplo, um pipeline pode incluir passos para dividir dados, transformar tipos de dados e preparar um modelo. Uma vez que os passos são instâncias de componentes do pipeline, têm entradas, saídas e uma imagem de contentor. As entradas dos passos podem ser definidas a partir das entradas do pipeline ou podem depender da saída de outros passos neste pipeline. Estas dependências definem o fluxo de trabalho do pipeline como um gráfico acíclico orientado.

Vista geral do pipeline e dos componentes

O diagrama seguinte mostra o pipeline de modelagem para o fluxo de trabalho tabular para o AutoML integral :

Pipeline para o AutoML Tables ponto a ponto 

Os componentes do pipeline são:

  1. feature-transform-engine: realiza a engenharia de funcionalidades. Consulte o Feature Transform Engine para ver detalhes.
  2. split-materialized-data: divida os dados materializados num conjunto de preparação, num conjunto de avaliação e num conjunto de teste.

    Entrada:

    • Dados materializados materialized_data.

    Saída:

    • Divisão de preparação materializada: materialized_train_split.
    • Divisão de avaliação materializada materialized_eval_split.
    • Conjunto de teste materializado materialized_test_split.
  3. merge-materialized-splits: une a divisão de avaliação materializada e a divisão de preparação materializada.
  4. automl-tabular-stage-1-tuner: executa a pesquisa da arquitetura do modelo e ajusta os hiperparâmetros.

    • Uma arquitetura é definida por um conjunto de hiperparâmetros.
    • Os hiperparâmetros incluem o tipo de modelo e os parâmetros do modelo.
    • Os tipos de modelos considerados são redes neurais e árvores de decisão com reforço.
    • O sistema prepara um modelo para cada arquitetura considerada.
  5. automl-tabular-cv-trainer: valida arquiteturas de forma cruzada através da preparação de modelos em diferentes dobras dos dados de entrada.

    • As arquiteturas consideradas são as que dão os melhores resultados no passo anterior.
    • O sistema seleciona aproximadamente dez das melhores arquiteturas. O número preciso é definido pelo orçamento de formação.
  6. automl-tabular-ensemble: reúne as melhores arquiteturas para produzir um modelo final.

    • O diagrama seguinte ilustra a validação cruzada de K-fold com bagging:

    bagging ensemble 

  7. condition-is-distill: opcional. Cria uma versão mais pequena do modelo de conjunto.

    • Um modelo mais pequeno reduz a latência e o custo da inferência.
  8. automl-tabular-infra-validator: valida se o modelo preparado é um modelo válido.

  9. model-upload: carrega o modelo.

  10. condition-is-evaluation: opcional. Usa o conjunto de testes para calcular as métricas de avaliação.

O que se segue?