Descripción general de las canalizaciones de AA

En este documento, se proporciona una descripción general de los servicios que puedes usar para compilar una canalización de AA para administrar tu flujo de trabajo de MLOps de BigQuery ML.

Una canalización de AA es una representación de un flujo de trabajo de MLOps que se compone de una serie de tareas de canalización. Cada tarea de canalización realiza un paso específico en el flujo de trabajo de MLOps para entrenar e implementar un modelo. Separar cada paso en una tarea estandarizada y reutilizable te permite automatizar y supervisar procesos repetibles en tu práctica de AA.

Puedes usar cualquiera de los siguientes servicios para crear canalizaciones de AA de BigQuery ML:

  • Usa Vertex AI Pipelines para crear canalizaciones de AA portátiles y extensibles.
  • Usa consultas de GoogleSQL para crear canalizaciones de AA basadas en SQL menos complejas.
  • Usa Dataform para crear canalizaciones de AA más complejas basadas en SQL o canalizaciones de AA en las que necesites usar el control de versiones.

Vertex AI Pipelines

En Vertex AI Pipelines, una canalización de AA se estructura como un grafo acíclico dirigido (DAG) de tareas de canalización en contenedores que se interconectan mediante dependencias de entrada y salida. Cada tarea de canalización es una instancia de un componente de canalización con entradas específicas. Cuando defines tu canalización de AA, conectas varias tareas de canalización para formar un DAG enrrutando los resultados de una tarea de canalización a las entradas de la siguiente tarea de canalización en el flujo de trabajo de AA. También puedes usar las entradas originales de la canalización de AA como entradas para una tarea de canalización determinada.

Usa los componentes de BigQuery ML del SDK de componentes de canalización de Google Cloud para crear canalizaciones de AA en Vertex AI Pipelines. Para comenzar a usar los componentes de BigQuery ML, consulta los siguientes notebooks:

Consultas de GoogleSQL

Puedes usar el lenguaje de procedimiento de GoogleSQL para ejecutar varias instrucciones en una consulta de varias instrucciones. Puedes usar una consulta de varias declaraciones para lo siguiente:

  • Ejecuta varias consultas en una secuencia, con estado compartido.
  • Automatiza las tareas de administración, como crear o descartar tablas
  • Implementa una lógica compleja con construcciones de programación como IF y WHILE.

Después de crear una consulta de varias instrucciones, puedes guardar y programar la consulta para automatizar el entrenamiento, la inferencia y la supervisión de modelos.

Si tu canalización de IA incluye el uso de la función ML.GENERATE_TEXT, consulta Controla los errores de cuota llamando a ML.GENERATE_TEXT de forma iterativa para obtener más información sobre cómo usar SQL para iterar a través de las llamadas a la función. Llamar a la función de forma iterativa te permite abordar cualquier error que se pueda reintentar que se produzca debido a que se superaron las cuotas y límites.

Dataform

Puedes usar Dataform para desarrollar, probar, controlar versiones y programar flujos de trabajo de SQL complejos para la transformación de datos en BigQuery. Puedes usar Dataform para tareas como la transformación de datos en el proceso de extracción, carga y transformación (ELT) para la integración de datos. Después de extraer datos sin procesar de los sistemas de origen y cargarlos en BigQuery, Dataform te ayuda a transformarlos en un conjunto de tablas de datos bien definido, probado y documentado.

Si tu canalización de AA incluye el uso de la función ML.GENERATE_TEXT, puedes adaptar la biblioteca de ejemplo structured_table_ml.js para iterar a través de llamadas a la función. Llamar a la función de forma iterativa te permite abordar cualquier error que se pueda reintentar que se produzca debido a que se superaron las cuotas y límites que se aplican a la función.