Tabular Workflows en Vertex AI

Tabular Workflows es un conjunto de canalizaciones integradas, completamente administradas y escalables para el AA de extremo a extremo con datos tabulares. Aprovecha la tecnología de Google para el desarrollo de modelos y te proporciona opciones de personalización que se adaptan a tus necesidades.

Ventajas

  • Completamente administrado: no tienes que preocuparte por las actualizaciones, las dependencias y los conflictos.
  • Fácil de escalar: no es necesario volver a diseñar la infraestructura a medida que crecen las cargas de trabajo o los conjuntos de datos.
  • Optimizado para el rendimiento: el hardware adecuado se configura de forma automática según los requisitos del flujo de trabajo.
  • Integración profunda: compatibilidad con los productos del paquete de MLOps de Vertex AI, como Vertex AI Pipelines y Vertex AI Experiments, te permite ejecutar muchos experimentos en un período breve.

Descripción técnica general

Cada flujo de trabajo es una instancia administrada de Vertex AI Pipelines.

Vertex AI Pipelines es un servicio sin servidores que ejecuta canalizaciones de Kubeflow. Puedes usar canalizaciones para automatizar y supervisar tus tareas de preparación de datos y aprendizaje automático. Cada paso de una canalización realiza parte del flujo de trabajo de la canalización. Por ejemplo, una canalización puede incluir pasos para dividir datos, transformar tipos de datos y entrenar un modelo. Dado que los pasos son instancias de componentes de canalización, tienen entradas, salidas y una imagen de contenedor. Las entradas de pasos se pueden configurar a partir de las entradas de la canalización o pueden depender del resultado de otros pasos dentro de esta canalización. Estas dependencias definen el flujo de trabajo de la canalización como un grafo acíclico dirigido.

flujos de trabajo tabulares como un grafo acíclico dirigido

Cómo comenzar

En la mayoría de los casos, debes definir y ejecutar la canalización con el SDK de componentes de canalización de Google Cloud. En el siguiente código de muestra, se muestra una ilustración. Ten en cuenta que la implementación real del código puede ser diferente.

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
     …
      optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     …)
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

Para ver notebooks y colaboraciones de muestra, comunícate con tu representante de ventas o completa un formulario de solicitud.

Control de versiones y mantenimiento

Tabular Workflows tiene un sistema de control de versiones eficaz que permite realizar actualizaciones y mejoras continuas sin romper los cambios en tus aplicaciones.

Cada flujo de trabajo se lanza y se actualiza como parte del SDK de componentes de canalización de Google Cloud. Las actualizaciones y modificaciones de cualquier flujo de trabajo se lanzan como versiones nuevas de ese flujo de trabajo. Las versiones anteriores de cada flujo de trabajo siempre están disponibles a través de las versiones anteriores del SDK. Si la versión del SDK está fijada, la versión del flujo de trabajo también se fija.

Flujos de trabajo disponibles

Vertex AI proporciona los siguientes flujos de trabajo tabulares:

Nombre Tipo Disponibilidad
Feature Transform Engine Ingeniería de atributos Vista preliminar pública
AutoML de extremo a extremo Clasificación y regresión Disponible de manera general
TabNet Clasificación y regresión Vista preliminar pública
Algoritmo de amplitud y profundidad Clasificación y regresión Vista preliminar pública
Previsión Previsión Vista preliminar pública

Para obtener información adicional y notebooks de muestra, comunícate con tu representante de ventas o completa un formulario de solicitud.

Feature Transform Engine

Function Transform Engine realiza la selección y la transformación de atributos. Si la selección de atributos está habilitada, Feature Transform Engine crea un conjunto clasificado de atributos importantes. Si están habilitadas las transformaciones de atributos, Feature Transform Engine procesa los atributos para garantizar que la entrada para el entrenamiento y la entrega de modelos sea coherente. Feature Transform Engine se puede usar por sí solo o junto con cualquiera de los flujos de trabajo de entrenamiento tabular. Es compatible con frameworks de TensorFlow y de terceros.

Para obtener más información, consulta Ingeniería de atributos.

Tabular Workflows para la clasificación y la regresión

Flujo de trabajo tabular para AutoML de extremo a extremo

Flujo de trabajo tabular para AutoML de extremo a extremo es una canalización completa de AutoML para las tareas de clasificación y regresión. Es similar a la API de AutoML, pero te permite elegir qué controlar y qué automatizar. En lugar de tener controles para toda la canalización, tienes controles para cada paso de la canalización. Estos controles de canalización incluyen lo siguiente:

  • División de datos
  • Ingeniería de atributos
  • Búsqueda de arquitectura
  • Entrenamiento del modelo
  • Ensamble de modelos
  • Destilación de modelos

Ventajas

  • Admite conjuntos de datos grandes que tienen un tamaño de varios TB y hasta 1,000 columnas.
  • Te permite mejorar la estabilidad y reducir el tiempo de entrenamiento, ya que limita el espacio de búsqueda de los tipos de arquitectura, o bien omite la búsqueda de arquitectura.
  • Te permite mejorar la velocidad de entrenamiento mediante la selección manual del hardware usado para el entrenamiento y la búsqueda de arquitectura.
  • Te permite reducir el tamaño del modelo y mejorar la latencia con extracción y el cambio del tamaño del ensamble.
  • Cada componente de AutoML se puede inspeccionar en una interfaz potente de gráficos de canalización que te permite ver las tablas de datos transformadas, las arquitecturas de modelos evaluados y muchos más detalles.
  • Cada componente de AutoML obtiene flexibilidad y transparencia extendidas, como la capacidad de personalizar parámetros y hardware, ver el estado de los procesos, registros y mucho más.

Entrada y salida

  • Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada.
  • Produce un modelo de Vertex AI como salida.
  • Las salidas intermedias incluyen las estadísticas y las divisiones de los conjuntos de datos.

Para obtener más información, consulta Flujo de trabajo tabular para AutoML de extremo a extremo.

Flujo de trabajo tabular para TabNet

Flujo de trabajo tabular para TabNet es una canalización que puedes usar a fin de entrenar modelos de clasificación o regresión. TabNet usa la atención secuencial para elegir qué atributos razonar en cada paso de decisión. Esto promueve la interpretabilidad y el aprendizaje más eficiente, ya que la capacidad de aprendizaje se usa para los atributos más destacados.

Beneficios

  • Selecciona de forma automática el espacio de búsqueda de hiperparámetros adecuado en función del tamaño del conjunto de datos, el tipo de predicción y el presupuesto de entrenamiento.
  • Se integra en Vertex AI. El modelo entrenado es un modelo de Vertex AI. Puedes ejecutar predicciones por lotes o implementar el modelo para predicciones en línea de inmediato.
  • Proporciona interpretabilidad inherente del modelo. Puedes obtener información sobre las características que TabNet usó para tomar su decisión.
  • Admite el entrenamiento de GPU.

Entrada y salida

Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada y proporciona un modelo de Vertex AI como salida.

Para obtener más información, consulta Flujo de trabajo tabular para TabNet.

Flujo de trabajo tabular para el algoritmo de amplitud y profundidad

El flujo de trabajo tabular para el algoritmo de amplitud y profundidad es una canalización que puedes usar a fin de entrenar modelos de clasificación o regresión. El entrenamiento profundo y amplio entrena modelos lineales amplios y redes neuronales profundas a la vez. Combina los beneficios de la memorización y la generalización. En algunos experimentos en línea, los resultados mostraron que el entrenamiento profundo y amplio aumentó significativamente las adquisiciones de aplicaciones de Google Store en comparación con los modelos solo amplio y solo profundo.

Ventajas

  • Se integra en Vertex AI. El modelo entrenado es un modelo de Vertex AI. Puedes ejecutar predicciones por lotes o implementar el modelo para predicciones en línea de inmediato.

Entrada y salida

Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada y proporciona un modelo de Vertex AI como salida.

Si deseas obtener más información, consulta Flujo de trabajo tabular para el entrenamiento sobre el algoritmo de amplitud y profundidad.

Flujos de trabajo tabulares para la previsión

Flujo de trabajo tabular para la previsión

El flujo de trabajo tabular para la previsión es la canalización completa para las tareas de previsión. Es similar a la API de AutoML, pero te permite elegir qué controlar y qué automatizar. En lugar de tener controles para toda la canalización, tienes controles para cada paso de la canalización. Estos controles de canalización incluyen lo siguiente:

  • División de datos
  • Ingeniería de atributos
  • Búsqueda de arquitectura
  • Entrenamiento del modelo
  • Ensamble de modelos

Ventajas

  • Admite conjuntos de datos grandes de hasta 1 TB de tamaño y hasta 200 columnas.
  • Te permite mejorar la estabilidad y reducir el tiempo de entrenamiento, ya que limita el espacio de búsqueda de los tipos de arquitectura, o bien omite la búsqueda de arquitectura.
  • Te permite mejorar la velocidad de entrenamiento mediante la selección manual del hardware usado para el entrenamiento y la búsqueda de arquitectura.
  • Para algunos métodos de entrenamiento de modelos, te permite reducir el tamaño del modelo y mejorar la latencia si cambias el tamaño del ensamble.
  • Cada componente se puede inspeccionar en una interfaz potente de gráficos de canalización que te permite ver las tablas de datos transformadas, las arquitecturas de modelos evaluados y muchos más detalles.
  • Cada componente obtiene flexibilidad y transparencia extendidas, como la capacidad de personalizar parámetros y hardware, ver el estado de los procesos, registros y mucho más.

Entrada y salida

  • Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada.
  • Produce un modelo de Vertex AI como salida.
  • Las salidas intermedias incluyen las estadísticas y las divisiones de los conjuntos de datos.

Si deseas obtener más información, consulta Flujo de trabajo tabular para la previsión.

¿Qué sigue?