Tabular Workflows en Vertex AI

Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Tabular Workflows es un conjunto de canalizaciones integradas, completamente administradas y escalables para el AA de extremo a extremo con datos tabulares. Aprovecha la tecnología de Google para el desarrollo de modelos y te proporciona opciones de personalización que se adaptan a tus necesidades.

Ventajas

  • Completamente administrado: no tienes que preocuparte por las actualizaciones, las dependencias y los conflictos.
  • Fácil de escalar: no es necesario volver a diseñar la infraestructura a medida que crecen las cargas de trabajo o los conjuntos de datos.
  • Optimizado para el rendimiento: el hardware adecuado se configura de forma automática según los requisitos del flujo de trabajo.
  • Integración profunda: compatibilidad con los productos del paquete de MLOps de Vertex AI, como Vertex AI Pipelines y Vertex AI Experiments, te permite ejecutar muchos experimentos en un período breve.

Descripción técnica general

Cada flujo de trabajo es una instancia administrada de Vertex AI Pipelines.

Vertex AI Pipelines es un servicio sin servidores que ejecuta canalizaciones de Kubeflow. Puedes usar canalizaciones para automatizar y supervisar tus tareas de preparación de datos y aprendizaje automático. Cada paso de una canalización realiza parte del flujo de trabajo de la canalización. Por ejemplo, una canalización puede incluir pasos para dividir datos, transformar tipos de datos y entrenar un modelo. Dado que los pasos son instancias de componentes de canalización, tienen entradas, salidas y una imagen de contenedor. Las entradas de pasos se pueden configurar a partir de las entradas de la canalización o pueden depender del resultado de otros pasos dentro de esta canalización. Estas dependencias definen el flujo de trabajo de la canalización como un grafo acíclico dirigido.

flujos de trabajo tabulares como un grafo acíclico dirigido

Cómo comenzar

En la mayoría de los casos, debes definir y ejecutar la canalización mediante el SDK de componentes de canalización de Google Cloud. En el siguiente código de muestra, se proporciona una ilustración. Ten en cuenta que la implementación real del código puede ser diferente.

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
     …
      optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     …)
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

Para ver notebooks y colaboraciones de muestra, comunícate con tu representante de ventas o completa un formulario de solicitud.

Control de versiones y mantenimiento

Tabular Workflows tiene un sistema de control de versiones eficaz que permite realizar actualizaciones y mejoras continuas sin romper los cambios en tus aplicaciones.

Cada flujo de trabajo se lanza y se actualiza como parte del SDK de componentes de canalización de Google Cloud. Las actualizaciones y modificaciones de cualquier flujo de trabajo se lanzan como versiones nuevas de ese flujo de trabajo. Las versiones anteriores de cada flujo de trabajo siempre están disponibles a través de las versiones anteriores del SDK. Si la versión del SDK está fijada, la versión del flujo de trabajo también se fija.

Flujos de trabajo disponibles

Name Disponibilidad
Clasificación y regresión
AutoML de extremo a extremo Vista previa pública
Capacitación de TabNet Vista previa privada
Entrenamiento amplio y profundo Vista previa privada
Feature Engineering
Selección de los atributos Vista previa privada
Transformaciones de atributos Vista previa privada

Para obtener información adicional y notebooks de muestra, comunícate con tu representante de ventas o completa un formulario de solicitud.

Flujos de trabajo de clasificación y regresión

AutoML de extremo a extremo

AutoML de extremo a extremo es una canalización completa de AutoML para las tareas de clasificación y regresión. Es similar a la API de AutoML, pero te permite elegir qué controlar y qué automatizar. En lugar de tener controles para toda la canalización, tienes controles para cada paso de la canalización. Estos controles de canalización incluyen lo siguiente:

  • División de datos
  • Ingeniería de atributos
  • Búsqueda de arquitectura
  • Entrenamiento del modelo
  • Ensamble de modelos
  • Destilación de modelos

Ventajas

  • Admite conjuntos de datos grandes que tienen un tamaño de varios TB y hasta con 1,000 columnas.
  • Te permite mejorar la estabilidad y reducir el tiempo de entrenamiento, ya que limita el espacio de búsqueda de los tipos de arquitectura, o bien omite la búsqueda de arquitectura.
  • Te permite mejorar la velocidad de entrenamiento mediante la selección manual del hardware usado para el entrenamiento y la búsqueda de arquitectura.
  • Te permite reducir el tamaño del modelo y mejorar la latencia con extracción y el cambio del tamaño del ensamble.
  • Cada componente de AutoML se puede inspeccionar en una interfaz potente de gráficos de canalización que te permite ver las tablas de datos transformadas, las arquitecturas de modelos evaluados y muchos más detalles.
  • Cada componente de AutoML obtiene flexibilidad y transparencia extendidas, como la capacidad de personalizar parámetros y hardware, ver el estado de los procesos, registros y mucho más.

Entrada y salida

  • Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada.
  • Produce un modelo de Vertex AI como resultado.
  • Los resultados intermedios incluyen estadísticas de conjuntos de datos y divisiones de conjuntos de datos.

Para obtener más información, consulta Flujo de trabajo tabular de AutoML de extremo a extremo.

Entrenamiento de modelos de TabNet

El entrenamiento de modelos TabNet es una canalización que puedes usar para entrenar modelos de clasificación o regresión. TabNet usa la atención secuencial para elegir qué atributos razonar en cada paso de decisión. Esto promueve la interpretabilidad y el aprendizaje más eficiente, ya que la capacidad de aprendizaje se usa para los atributos más destacados.

Beneficios

  • Selecciona automáticamente el espacio de búsqueda de hiperparámetros adecuado según el tamaño del conjunto de datos, el tipo de predicción y el presupuesto de entrenamiento.
  • Se integra en Vertex AI. El modelo entrenado es un modelo de Vertex AI. Puedes ejecutar predicciones por lotes o implementar el modelo para predicciones en línea de inmediato.

Entrada y salida

Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada y proporciona un modelo de Vertex AI como salida.

Para obtener más información, consulta Flujo de trabajo tabular para el entrenamiento de TabNet.

Entrenamiento de modelos profundos y amplios

El entrenamiento de modelos profundos y amplios es una canalización de entrenamiento para la arquitectura de modelo profundo y amplio. Admite la clasificación y la regresión. El entrenamiento profundo y amplio entrena modelos lineales amplios y redes neuronales profundas a la vez. Combina los beneficios de la memorización y la generalización. En algunos experimentos en línea, los resultados mostraron que el entrenamiento profundo y amplio aumentó significativamente las adquisiciones de aplicaciones de Google Store en comparación con los modelos solo amplio y solo profundo.

Ventajas

  • Se integra en Vertex AI. El modelo entrenado es un modelo de Vertex AI. Puedes ejecutar predicciones por lotes o implementar el modelo para predicciones en línea de inmediato.

Entrada y salida

Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada y proporciona un modelo de Vertex AI como salida.

Si deseas obtener más información, consulta Flujo de trabajo tabular para el entrenamiento sobre el algoritmo de amplitud y profundidad.

Ingeniería de atributos

La búsqueda de atributos es una canalización que crea un conjunto clasificado de atributos importantes para conjuntos de datos de hasta 10,000 columnas. Se puede usar junto con cualquiera de los flujos de trabajo de entrenamiento.

Entrada y salida

Toma una tabla de BigQuery o un archivo CSV de Cloud Storage como entrada y produce un archivo JSON que contiene las clasificaciones de los atributos.

Transformaciones de atributos

Los flujos de trabajo de las transformaciones de atributos se usan para aplicar la ingeniería de atributos de forma coherente durante el entrenamiento y la entrega. Admiten frameworks de TensorFlow y de terceros.

Entrada y salida

Toma divisiones de conjuntos de datos (entrenamiento/evaluación/prueba) y produce lo siguiente:

  • Divisiones de conjuntos de datos transformados
  • Artefacto que se usa para volver a aplicar las transformaciones durante la entrega

¿Qué sigue?