Esta página foi traduzida pela API Cloud Translation.

Fluxo de trabalho tabular para o AutoML integral

Este documento oferece uma vista geral do pipeline e dos componentes do AutoML ponto a ponto. Para saber como preparar um modelo com o AutoML completo, consulte o artigo Prepare um modelo com o AutoML completo.

O fluxo de trabalho tabular para o AutoML completo é um pipeline do AutoML completo para tarefas de classificação e regressão. É semelhante à API AutoML, mas permite-lhe escolher o que controlar e o que automatizar. Em vez de ter controlos para todo o pipeline, tem controlos para cada passo no pipeline. Estes controlos do pipeline incluem:

Divisão de dados
Engenharia de funcionalidades
Pesquisa de arquitetura
Preparação de modelos
Agregação de modelos
Destilação de modelos

Vantagens

Seguem-se algumas das vantagens do fluxo de trabalho tabular para o AutoML integral :

Suporta grandes conjuntos de dados com vários TB e até 1000 colunas.
Permite melhorar a estabilidade e reduzir o tempo de preparação, limitando o espaço de pesquisa de tipos de arquitetura ou ignorando a pesquisa de arquitetura.
Permite melhorar a velocidade de preparação selecionando manualmente o hardware usado para a preparação e a pesquisa de arquitetura.
Permite reduzir o tamanho do modelo e melhorar a latência com a destilação ou alterando o tamanho do conjunto.
Cada componente do AutoML pode ser inspecionado numa interface de gráfico de pipelines avançada que lhe permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos mais detalhes.
Cada componente do AutoML tem uma flexibilidade e uma transparência alargadas, como a capacidade de personalizar parâmetros, hardware, ver o estado do processo, registos e muito mais.

AutoML ponto a ponto no Vertex AI Pipelines

O fluxo de trabalho tabular para o AutoML ponto a ponto é uma instância gerida do Vertex AI Pipelines.

O Vertex AI Pipelines é um serviço sem servidor que executa pipelines Kubeflow. Pode usar pipelines para automatizar e monitorizar as suas tarefas de aprendizagem automática e preparação de dados. Cada passo num pipeline executa parte do fluxo de trabalho do pipeline. Por exemplo, um pipeline pode incluir passos para dividir dados, transformar tipos de dados e preparar um modelo. Uma vez que os passos são instâncias de componentes do pipeline, têm entradas, saídas e uma imagem de contentor. As entradas dos passos podem ser definidas a partir das entradas do pipeline ou podem depender da saída de outros passos neste pipeline. Estas dependências definem o fluxo de trabalho do pipeline como um gráfico acíclico orientado.

Vista geral do pipeline e dos componentes

O diagrama seguinte mostra o pipeline de modelagem para o fluxo de trabalho tabular para o AutoML integral :

Pipeline para o AutoML Tables ponto a ponto

Os componentes do pipeline são:

feature-transform-engine: realiza a engenharia de funcionalidades. Consulte o Feature Transform Engine para ver detalhes.
split-materialized-data: divida os dados materializados num conjunto de preparação, num conjunto de avaliação e num conjunto de teste.

Entrada:
- Dados materializados materialized_data.
Saída:
- Divisão de preparação materializada: materialized_train_split.
- Divisão de avaliação materializada materialized_eval_split.
- Conjunto de teste materializado materialized_test_split.
merge-materialized-splits: une a divisão de avaliação materializada e a divisão de preparação materializada.
automl-tabular-stage-1-tuner: executa a pesquisa da arquitetura do modelo e ajusta os hiperparâmetros.
- Uma arquitetura é definida por um conjunto de hiperparâmetros.
- Os hiperparâmetros incluem o tipo de modelo e os parâmetros do modelo.
- Os tipos de modelos considerados são redes neurais e árvores de decisão com reforço.
- O sistema prepara um modelo para cada arquitetura considerada.
automl-tabular-cv-trainer: valida arquiteturas de forma cruzada através da preparação de modelos em diferentes dobras dos dados de entrada.
- As arquiteturas consideradas são as que dão os melhores resultados no passo anterior.
- O sistema seleciona aproximadamente dez das melhores arquiteturas. O número preciso é definido pelo orçamento de formação.
automl-tabular-ensemble: reúne as melhores arquiteturas para produzir um modelo final.
- O diagrama seguinte ilustra a validação cruzada de K-fold com bagging:
condition-is-distill: opcional. Cria uma versão mais pequena do modelo de conjunto.
- Um modelo mais pequeno reduz a latência e o custo da inferência.
automl-tabular-infra-validator: valida se o modelo preparado é um modelo válido.
model-upload: carrega o modelo.
condition-is-evaluation: opcional. Usa o conjunto de testes para calcular as métricas de avaliação.

O que se segue?

Prepare um modelo com o AutoML integral.

Fluxo de trabalho tabular para o AutoML integral Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Vantagens

AutoML ponto a ponto no Vertex AI Pipelines

Vista geral do pipeline e dos componentes

O que se segue?

Fluxo de trabalho tabular para o AutoML integral