Flujo de trabajo tabular para AutoML de extremo a extremo

En este documento, se proporciona una descripción general de la canalización y los componentes de AutoML de extremo a extremo. Para aprender a entrenar un modelo con AutoML de extremo a extremo, consulta Entrena un modelo con AutoML de extremo a extremo.

Flujo de trabajo tabular para AutoML de extremo a extremo es una canalización completa de AutoML para las tareas de clasificación y regresión. Es similar a la API de AutoML, pero te permite elegir qué controlar y qué automatizar. En lugar de tener controles para toda la canalización, tienes controles para cada paso de la canalización. Estos controles de canalización incluyen lo siguiente:

  • División de datos
  • Ingeniería de atributos
  • Búsqueda de arquitectura
  • Entrenamiento del modelo
  • Ensamble de modelos
  • Destilación de modelos

Beneficios

A continuación, se incluyen algunos de los beneficios del flujo de trabajo tabular para AutoML de extremo a extremo:

  • Admite conjuntos de datos grandes que tienen un tamaño de varios TB y hasta 1,000 columnas.
  • Te permite mejorar la estabilidad y reducir el tiempo de entrenamiento, ya que limita el espacio de búsqueda de los tipos de arquitectura, o bien omite la búsqueda de arquitectura.
  • Te permite mejorar la velocidad de entrenamiento mediante la selección manual del hardware usado para el entrenamiento y la búsqueda de arquitectura.
  • Te permite reducir el tamaño del modelo y mejorar la latencia con extracción y el cambio del tamaño del ensamble.
  • Cada componente de AutoML se puede inspeccionar en una interfaz potente de gráficos de canalización que te permite ver las tablas de datos transformadas, las arquitecturas de modelos evaluados y muchos más detalles.
  • Cada componente de AutoML obtiene flexibilidad y transparencia extendidas, como la capacidad de personalizar parámetros y hardware, ver el estado de los procesos, registros y mucho más.

AutoML de extremo a extremo en Vertex AI Pipelines

Flujo de trabajo tabular para AutoML de extremo a extremo es una instancia administrada de Vertex AI Pipelines.

Vertex AI Pipelines es un servicio sin servidores que ejecuta canalizaciones de Kubeflow. Puedes usar canalizaciones para automatizar y supervisar tus tareas de preparación de datos y aprendizaje automático. Cada paso de una canalización realiza parte del flujo de trabajo de la canalización. Por ejemplo, una canalización puede incluir pasos para dividir datos, transformar tipos de datos y entrenar un modelo. Dado que los pasos son instancias de componentes de canalización, tienen entradas, salidas y una imagen de contenedor. Las entradas de pasos se pueden configurar a partir de las entradas de la canalización o pueden depender del resultado de otros pasos dentro de esta canalización. Estas dependencias definen el flujo de trabajo de la canalización como un grafo acíclico dirigido.

Descripción general de la canalización y los componentes

En el siguiente diagrama, se muestra la canalización de modelado para el flujo de trabajo tabular para AutoML de extremo a extremo:

Canalización para tablas de AutoML de extremo a extremo 

Los componentes de canalización son los siguientes:

  1. feature-transform-engine: realiza la ingeniería de atributos. Consulta Feature Transform Engine para obtener más detalles.
  2. split-materialized-data: divide los datos materializados en un conjunto de entrenamiento, un conjunto de evaluación y un conjunto de prueba.

    Entrada:

    • Datos materializados materialized_data.

    Resultado:

    • División del entrenamiento materializada materialized_train_split.
    • División de la evaluación materializada materialized_eval_split.
    • Conjunto de prueba materializado materialized_test_split.
  3. merge-materialized-splits: Combina la división de evaluación materializada y la división de entrenamiento materializada.
  4. automl-tabular-stage-1-tuner: Realiza la búsqueda de arquitectura de modelos y ajusta los hiperparámetros.

    • Una arquitectura se define mediante un conjunto de hiperparámetros.
    • Estos hiperparámetros incluyen el tipo y los parámetros del modelo.
    • Los tipos de modelos que se consideran son redes neuronales y árboles con boosting.
    • Se entrena un modelo para cada arquitectura considerada.
  5. automl-tabular-cv-trainer: Realiza una validación cruzada de arquitecturas con modelos de entrenamiento en diferentes plegados de los datos de entrada.

    • Las arquitecturas consideradas son aquellas que dieron los mejores resultados en el paso anterior.
    • Se seleccionan aproximadamente diez mejores arquitecturas. La cantidad precisa se define según el presupuesto de entrenamiento.
  6. automl-tabular-ensemble: Reúne las mejores arquitecturas para producir un modelo final.

    • El siguiente diagrama es una ilustración de la validación cruzada de K con bagging:

    ensamble bagging 

  7. condition-is-distill: Opcional. Crea una versión más pequeña del modelo de ensamble.

    • Un modelo más pequeño reduce la latencia y el costo de la predicción.
  8. automl-tabular-infra-validator: Valida si el modelo entrenado es un modelo válido.

  9. model-upload: Sube el modelo.

  10. condition-is-evaluation: Opcional. Usa el conjunto de pruebas para calcular las métricas de evaluación.

¿Qué sigue?