Esta página foi traduzida pela API Cloud Translation.

Fluxo de trabalho tabular para previsão

Este documento apresenta uma visão geral do fluxo de trabalho tabular para previsão de pipeline e componentes. Para saber como treinar um modelo, consulte Treinar um modelo com fluxo de trabalho tabular para previsão .

O fluxo de trabalho tabular para previsão é o pipeline completo para tarefas de previsão. Ele é semelhante à API AutoML, mas permite que você escolha o que controlar e o que automatizar. Em vez de ter controles para o pipeline inteiro, você tem controles para cada etapa no pipeline. Esses controles de pipeline incluem o seguinte:

Divisão de dados
Engenharia de atributos
Pesquisa de arquitetura
Treinamento de modelo
Conjunto de modelos

Vantagens

Confira alguns dos benefícios do Fluxo de trabalho tabular para previsão :

Suporta conjuntos de dados grandes com tamanho de até 1 TB e até 200 colunas.
Permite melhorar a estabilidade e reduzir o tempo de treinamento limitando o espaço de pesquisa de tipos de arquitetura ou pulando a pesquisa de arquitetura.
Permite melhorar a velocidade do treinamento selecionando manualmente o hardware usado para pesquisa de treinamento e arquitetura.
Permite reduzir o tamanho do modelo e melhorar a latência mudando o tamanho do conjunto.
Cada componente pode ser inspecionado em uma ótima interface de gráfico de pipelines que permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos outros detalhes.
Os componentes têm mais flexibilidade e transparência, como personalização de parâmetros, hardware, status do processo de visualização, registros e muito mais.

Previsão em pipelines da Vertex AI

O fluxo de trabalho tabular para previsão é uma instância gerenciada do Vertex AI Pipelines.

O Vertex AI Pipelines é um serviço sem servidor que executa pipelines do Kubeflow. É possível usar pipelines para automatizar e monitorar suas tarefas de machine learning e de preparação de dados. Cada etapa em um pipeline executa parte do fluxo de trabalho do pipeline. Por exemplo, um pipeline pode incluir etapas para dividir dados, transformar tipos de dados e treinar um modelo. Como as etapas são instâncias de componentes do pipeline, as etapas têm entradas, saídas e uma imagem de contêiner. As entradas de etapa podem ser definidas nas entradas do pipeline ou elas podem depender da saída de outras etapas dentro do pipeline. Essas dependências definem o fluxo de trabalho do pipeline como um gráfico acíclico dirigido.

Visão geral do pipeline e dos componentes

O diagrama a seguir mostra o pipeline de modelagem do Fluxo de trabalho tabular para previsão:

Pipeline para previsão

Estes são os componentes do pipeline:

feature-transform-engine: executa a engenharia de atributos. Consulte Feature Transform Engine para saber mais detalhes.
training-configurator-and-validator: valida a configuração do treinamento e gera os metadados de treinamento.

Entrada:
- instance_schema: esquema de instâncias na especificação da OpenAPI, que descreve os tipos de dados dos dados de inferência.
- dataset_stats: estatísticas que descrevem o conjunto de dados brutos. Por exemplo, dataset_stats fornece o número de linhas no conjunto de dados.
- training_schema: esquema de dados de treinamento na especificação da OpenAPI, que descreve os tipos de dados dos dados de treinamento.
split-materialized-data: divide os dados materializados em um conjunto de treinamento, um de avaliação e um de teste.

Entrada:
- materialized_data: dados materializados.
Saída:
- materialized_train_split: divisão de treinamento materializada.
- materialized_eval_split: divisão de avaliação materializada.
- materialized_test_split: conjunto de teste materializado.
calculate-training-parameters-2: calcula a duração do ambiente de execução esperada para automl-forecasting-stage-1-tuner.
get-hyperparameter-tuning-results: opcional: se você configurar o pipeline para pular a pesquisa de arquitetura, carregue os resultados do ajuste de hiperparâmetro da execução de um pipeline anterior.
Executa a pesquisa de arquitetura de modelo e ajusta hiperparâmetros (automl-forecasting-stage-1-tuner) ou usa os resultados de ajuste de hiperparâmetros de uma execução de pipeline anterior (automl-forecasting-stage-2-tuner).
- Uma arquitetura é definida por um conjunto de hiperparâmetros.
- Os hiperparâmetros incluem o tipo de modelo e os parâmetros do modelo.
- Os tipos de modelo considerados são redes neurais e árvores aprimoradas.
- Um modelo é treinado para cada arquitetura considerada.
Entrada:
- materialized_train_split: divisão de treinamento materializada.
- materialized_eval_split: divisão de avaliação materializada.
- artifact: resultados do ajuste de hiperparâmetros de uma execução de pipeline anterior. Esse artefato será uma entrada somente se você configurar o pipeline para pular a pesquisa de arquitetura.
Saída:
- tuning_result_output: saída de ajuste.
get-prediction-image-uri-2: produz o URI de imagem de inferência correto com base no tipo de modelo.
automl-forecasting-ensemble-2: combina as melhores arquiteturas para produzir um modelo final.

Entrada:
- tuning_result_output: saída de ajuste.
Saída:
- unmanaged_container_model: modelo de saída.
model-upload-2: faz o upload do modelo.

Entrada:
- unmanaged_container_model: modelo de saída.
Saída:
- model: modelo da Vertex AI
should_run_model_evaluation: opcional: use o conjunto de teste para calcular as métricas de avaliação.

A seguir

Treine um modelo usando o fluxo de trabalho tabular para previsão.