Descripción general de los flujos de procesamiento de aprendizaje automático
En este documento se ofrece una descripción general de los servicios que puedes usar para crear una canalización de aprendizaje automático que gestione tu flujo de trabajo de MLOps de BigQuery ML.
Un flujo de procesamiento de aprendizaje automático es una representación de un flujo de trabajo de MLOps compuesto por una serie de tareas de flujo de procesamiento. Cada tarea de la canalización realiza un paso específico en el flujo de trabajo de MLOps para entrenar e implementar un modelo. Si separas cada paso en una tarea estandarizada y reutilizable, podrás automatizar y monitorizar los procesos repetibles en tu práctica de aprendizaje automático.
Puedes usar cualquiera de los siguientes servicios para crear canalizaciones de aprendizaje automático de BigQuery ML:
- Usa Vertex AI Pipelines para crear flujos de procesamiento de aprendizaje automático portátiles y extensibles.
- Usa consultas de GoogleSQL para crear canalizaciones de aprendizaje automático basadas en SQL menos complejas.
- Usa Dataform para crear flujos de procesamiento de aprendizaje automático más complejos basados en SQL o flujos de procesamiento de aprendizaje automático en los que necesites usar el control de versiones.
Vertex AI Pipelines
En Vertex AI Pipelines, un flujo de procesamiento de aprendizaje automático se estructura como un grafo acíclico dirigido (DAG) de tareas de flujo de procesamiento en contenedores que están interconectadas mediante dependencias de entrada y salida. Cada tarea de la canalización es una instanciación de un componente de la canalización con entradas específicas. Cuando defines tu flujo de procesamiento de aprendizaje automático, conectas varias tareas de flujo de procesamiento para formar un DAG. Para ello, debes dirigir las salidas de una tarea de flujo de procesamiento a las entradas de la siguiente tarea de flujo de procesamiento del flujo de trabajo de aprendizaje automático. También puedes usar las entradas originales de la canalización de AA como entradas de una tarea de canalización determinada.
Usa los componentes de BigQuery ML del SDK de componentes de Google Cloud Pipeline para crear flujos de procesamiento de aprendizaje automático en Vertex AI Pipelines. Para empezar a usar los componentes de BigQuery ML, consulta los siguientes cuadernos:
- Empezar a usar los componentes de la canalización de BigQuery ML
- Entrenar y evaluar un modelo de previsión de la demanda
Consultas de GoogleSQL
Puedes usar el lenguaje de procedimientos de GoogleSQL para ejecutar varias instrucciones en una consulta con varias instrucciones. Puedes usar una consulta de varias instrucciones para lo siguiente:
- Ejecuta varias instrucciones en una secuencia con un estado compartido.
- Automatiza tareas de gestión, como crear o eliminar tablas.
- Implementa lógica compleja con estructuras de programación como
IF
yWHILE
.
Después de crear una consulta de varias instrucciones, puede guardarla y programarla para automatizar el entrenamiento, la inferencia y la monitorización de modelos.
Si tu canalización de aprendizaje automático incluye el uso de la función ML.GENERATE_TEXT
, consulta Gestionar errores de cuota llamando a ML.GENERATE_TEXT
de forma iterativa para obtener más información sobre cómo usar SQL para iterar en las llamadas a la función. Si llamas a la función de forma iterativa, podrás solucionar los errores que se puedan volver a intentar y que se produzcan por superar las cuotas y los límites.
Dataform
Puedes usar Dataform para desarrollar, probar, controlar versiones y programar flujos de trabajo de SQL complejos para la transformación de datos en BigQuery. Puedes usar Dataform para tareas como la transformación de datos en el proceso de extracción, carga y transformación (ELT) para la integración de datos. Una vez que se extraen los datos sin procesar de los sistemas de origen y se cargan en BigQuery, Dataform te ayuda a transformarlos en un conjunto de tablas de datos bien definido, probado y documentado.
Si tu flujo de trabajo de aprendizaje automático incluye el uso de la función ML.GENERATE_TEXT
, puedes adaptar la biblioteca de ejemplos structured_table_ml.js
para iterar las llamadas a la función. Llamar a la función de forma iterativa te permite solucionar los errores que se pueden volver a intentar y que se producen al superar las cuotas y los límites que se aplican a la función.