Fluxo de trabalho tabular para previsões

Este documento oferece uma vista geral do fluxo de trabalho tabular para a previsão pipeline e componentes. Para saber como preparar um modelo, consulte o artigo Prepare um modelo com o fluxo de trabalho tabular para previsões .

O fluxo de trabalho tabular para previsões é o pipeline completo para tarefas de previsão. É semelhante à API AutoML, mas permite-lhe escolher o que controlar e o que automatizar. Em vez de ter controlos para todo o pipeline, tem controlos para cada passo no pipeline. Estes controlos do pipeline incluem:

  • Divisão de dados
  • Engenharia de funcionalidades
  • Pesquisa de arquitetura
  • Preparação de modelos
  • Agregação de modelos

Vantagens

Seguem-se algumas das vantagens do fluxo de trabalho tabular para previsões :

  • Suporta grandes conjuntos de dados com um tamanho máximo de 1 TB e até 200 colunas.
  • Permite melhorar a estabilidade e reduzir o tempo de preparação, limitando o espaço de pesquisa de tipos de arquitetura ou ignorando a pesquisa de arquitetura.
  • Permite melhorar a velocidade de treino selecionando manualmente o hardware usado para o treino e a pesquisa de arquitetura.
  • Permite reduzir o tamanho do modelo e melhorar a latência alterando o tamanho do conjunto.
  • Cada componente pode ser inspecionado numa interface de gráfico de pipelines avançada que lhe permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos mais detalhes.
  • Cada componente recebe flexibilidade e transparência alargadas, como a capacidade de personalizar parâmetros, hardware, ver o estado do processo, registos e muito mais.

Previsão nos Vertex AI Pipelines

O fluxo de trabalho tabular para previsão é uma instância gerida do Vertex AI Pipelines.

O Vertex AI Pipelines é um serviço sem servidor que executa pipelines Kubeflow. Pode usar pipelines para automatizar e monitorizar as suas tarefas de aprendizagem automática e preparação de dados. Cada passo num pipeline executa parte do fluxo de trabalho do pipeline. Por exemplo, um pipeline pode incluir passos para dividir dados, transformar tipos de dados e preparar um modelo. Uma vez que os passos são instâncias de componentes do pipeline, têm entradas, saídas e uma imagem de contentor. As entradas dos passos podem ser definidas a partir das entradas do pipeline ou podem depender da saída de outros passos neste pipeline. Estas dependências definem o fluxo de trabalho do pipeline como um gráfico acíclico orientado.

Vista geral do pipeline e dos componentes

O diagrama seguinte mostra o pipeline de modelagem para o fluxo de trabalho tabular para previsões :

Pipeline para previsões 

Os componentes do pipeline são:

  1. feature-transform-engine: realiza a engenharia de funcionalidades. Consulte o Feature Transform Engine para ver detalhes.
  2. training-configurator-and-validator: valida a configuração de preparação e gera os metadados de preparação.

    Entrada:

    • instance_schema: esquema de instância na especificação OpenAPI, que descreve os tipos de dados dos dados de inferência.
    • dataset_stats: estatísticas que descrevem o conjunto de dados não processados. Por exemplo, dataset_stats dá o número de linhas no conjunto de dados.
    • training_schema: Esquema de dados de preparação na especificação OpenAPI, que descreve os tipos de dados dos dados de preparação.
  3. split-materialized-data: divide os dados materializados num conjunto de preparação, num conjunto de avaliação e num conjunto de teste.

    Entrada:

    • materialized_data: dados materializados.

    Saída:

    • materialized_train_split: divisão de formação materializada.
    • materialized_eval_split: divisão de avaliação materializada.
    • materialized_test_split: conjunto de teste materializado.
  4. calculate-training-parameters-2: calcula a duração esperada da execução para automl-forecasting-stage-1-tuner.

  5. get-hyperparameter-tuning-results: opcional. Se configurar o pipeline para ignorar a pesquisa de arquitetura, carregue os resultados do aperfeiçoamento de hiperparâmetros de uma execução do pipeline anterior.

  6. Realizar a pesquisa da arquitetura do modelo e ajustar os hiperparâmetros (automl-forecasting-stage-1-tuner) ou usar os resultados do ajuste de hiperparâmetros de uma execução da pipeline anterior (automl-forecasting-stage-2-tuner).

    • Uma arquitetura é definida por um conjunto de hiperparâmetros.
    • Os hiperparâmetros incluem o tipo de modelo e os parâmetros do modelo.
    • Os tipos de modelos considerados são redes neurais e árvores de decisão com reforço.
    • É preparado um modelo para cada arquitetura considerada.

    Entrada:

    • materialized_train_split: divisão de formação materializada.
    • materialized_eval_split: divisão de avaliação materializada.
    • artifact - Resultados do aperfeiçoamento de hiperparâmetros de uma execução de pipeline anterior. Este artefacto é uma entrada apenas se configurar o pipeline para ignorar a pesquisa de arquitetura.

    Saída:

    • tuning_result_output: Ajustar a saída.
  7. get-prediction-image-uri-2: produz o URI da imagem de inferência correto com base no tipo de modelo.

  8. automl-forecasting-ensemble-2: reúne as melhores arquiteturas para produzir um modelo final.

    Entrada:

    • tuning_result_output: Ajustar a saída.

    Saída:

    • unmanaged_container_model: modelo de saída.
  9. model-upload-2: carrega o modelo.

    Entrada:

    • unmanaged_container_model: modelo de saída.

    Saída:

    • model: modelo do Vertex AI.
  10. should_run_model_evaluation: opcional: use o conjunto de testes para calcular as métricas de avaliação.

O que se segue?